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数据 挖掘 涉及 数据 库 技 术 . 人 工 智能 、 统 计 学 、 机 器 学 习 等 多 学 科 领 域 ,并 且 已 经 在 各 
行 各 业 有 了 非常 广泛 的 应 用 。 为 适应 我 国 数据 挖掘 的 教学 工作 ,作者 在 数据 挖掘 教学 实 
践 的 基础 上 ,参阅 了 多 种 国内 外 最 新 版 本 的 教材 ,编写 了 本 书 。 本 书 可 以 作为 高 等 院 校 研 
究 生 的 教材 ,也 可 以 为 相关 行业 的 工程 技术 人 员 提 供 有 益 的 参考 。 

本 书 在 第 1 版 的 基础 上 对 其 中 欠 妥 之 处 进行 了 修改 ,内 容 安排 和 第 1 版 一 致 ,循序 渐 
进 地 对 数据 控 据 原理 进行 了 通俗 易 懂 的 讲解 。 本 书 最 大 的 特点 是 理论 与 实践 相 结合 ， 
书 几乎 所 有 的 算法 都 配 有 实例 和 源 程序 ,这 种 理论 与 实际 相 结合 的 方法 克服 了 重 理论 轻 
实践 的 内 容 组 织 方式 ,便于 读者 理解 和 掌握 其 中 知识 。 具 体 而 言 ,本 书 11 章 内 容 之 间 的 
关系 如 下 图 所 示 。 
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第 1 章 A R 


1.1 数据 挖掘 的 概念 


数据 挖掘 (Data Mining, DM) 又 称 数据 库 中 的 知识 发 现 (Knowledge Discover in 
Database, KDD) ,涉及 了 机 器 学 习 、 人 工 智能 .数据 库 理论 以 及 统计 学 等 学 科 的 交叉 研究 
领域 。 数 据 挖掘 就 是 从 数据 库 的 大 量 数据 中 挖掘 出 有 用 的 信息 , 即 从 大 量 的 、 不 完全 的 、 
有 噪声 的 ,模糊 的 、 随 机 的 实际 应 用 数据 中 ,发 现 隐 仿 的、 规律 性 的 、 人 们 事先 未 知 的 ,但 又 
是 潜在 有 用 的 并 且 最 终 可 理解 的 信息 和 知识 的 非 平凡 过 程 。 数 据 挖掘 所 挖掘 的 知识 类 型 
包括 模型 .规律 ,规则 模式、 约束 等 。 所 谓 事先 未 知 的 信息 是 指 该 信息 是 预先 未 曾 预 料 到 
的 , 即 信息 的 新 颖 性 。 数 据 挖掘 就 是 要 发 现 那 些 不 能 靠 直觉 发 现 的 ,甚至 是 违背 直觉 的 信 
息 或 知识 ,挖掘 出 的 信息 越 是 出 乎 意料 就 可 能 越 有 价值 。 潜 在 有 用 性 是 指 发 现 的 知识 将 
来 有 实际 效用 , 即 这 些 信息 或 知识 对 于 所 讨论 的 业务 或 研究 领域 是 有 效 的 有 实用 价值 的 
和 可 实现 的 ,一 般 而 言 常识 性 的 结论 或 已 被 人 们 掌握 的 事实 或 无 法 实现 的 推测 都 是 没有 
意义 的 。 最 终 可 理解 性 要 求 发 现 的 模式 能 被 用 户 理解 ,目前 它 主要 体现 在 简洁 性 上 , 即 发 
现 的 知识 要 可 接受 .可 理解 .可 运用 ,最 好 能 用 自然 语言 表达 所 发 现 的 结果 。 非 平凡 通常 
是 指数 据 挖掘 过 程 不 是 线性 的 ,在 挖掘 过 程 中 有 反复 ,有 循环 ,所 挖掘 的 知识 往往 不 容易 
通过 简单 的 分 析 就 能 够 得 到 ,这 些 知识 可 能 隐 含 在 表面 现象 的 内 部 ,需要 经 过 大 量 数据 的 
比较 分 析 , 必 要 时 要 应 用 一 些 专门 处 理 大 数据 量 的 数据 挖掘 工具 。 数 据 挖掘 是 一 种 决策 
支持 过 程 , 它 主要 基于 人 工 智能 ,机 器 学 习 \ 模 式 识别 ,统计 学 ,数据 库 \ 可 视 化 技术 等 ,高 
度 自动 化 地 分 析 企 业 的 数据 ,做 出 归纳 性 的 推理 ,从 中 挖掘 出 潜在 的 模式 ,帮助 决策 者 调 
整 市 场 策略 ,减少 风险 ,做 出 正确 的 决策 。 

数据 挖掘 主要 有 数据 准备 ,规律 寻找 和 规律 表示 三 个 步骤 。 数 据 准备 是 从 相关 的 数据 源 
中 选取 所 需 的 数据 并 整合 成 用 于 数据 挖掘 的 数据 集 , 规 律 寻找 是 用 某 种 方法 将 数据 集 所 含 的 
规律 找 出 来 ,而 规律 表示 是 尽 可 能 以 用 户 可 理解 的 方式 (如 可 视 化 ) 将 找 出 的 规律 表示 出 来 。 

并 非 所 有 的 信息 发 现任 务 都 被 视 为 数据 挖掘。 例如 ,使 用 数据 库 管 理 系统 查找 个 别 
的 记录 ,或 通过 因特网 的 搜索 引擎 查找 特定 的 Web 页 面 , 则 是 信息 检索 (Information 
Retrieval) 领域 的 任务 。 虽 然 这 些 任 务 是 重要 的 ,可 能 涉及 使 用 复杂 的 算法 和 数据 结构 ， 
但 是 它们 主要 依赖 传统 的 计算 机 科学 技术 和 数据 的 明显 特征 来 创建 索引 结构 ,从 而 有 效 
地 组 织 和 检索 信息 。 尽 管 如 此 ,数据 挖掘 技术 也 已 用 来 增强 信息 检索 系统 的 能 力 。 


1.2 数据 挖掘 的 历史 及 发 展 


数据 挖掘 的 发 展 是 建立 在 相关 学 科 发 展 的 基础 上 的 。 随 着 数据 库 技术 的 发 展 及 数据 
应 用 ,人 们 积累 的 数据 越 来 越 多 。 激 增 的 数据 背后 隐藏 着 许多 重要 信息 ,简单 地 查询 和 统 
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计 已 经 无 法 满足 商业 的 需求 ,需要 有 一 种 挖掘 数据 背后 隐藏 知识 的 手段 。 

同时 ,计算 机 技术 的 另 一 领域 一 -人 工 智 能 (Artificial Intelligence, AD Ñ 1956 年 诈 
生 之 后 就 取得 了 重大 进展 。 经 历 了 博弈 时 期 .自然 语言 理解 .知识 工程 等 阶段 ,目前 的 热 
点 是 机 器 学 习 。 用 数据 库 管 理 系 统 来 存储 数据 ,用 机 器 学 习 的 方法 来 分 析 数 据 ,挖掘 大 量 
数据 背后 的 知识 ,这 两 者 的 结合 促成 了 数据 库 中 的 知识 发 现 (Knowledge Discovery in 
Databases,KDD) 的 产生 。 数 据 库 中 的 知识 发 现 是 一 门 交叉 性 学 科 , 涉 及 机 器 学 习 、 模 式 
识别 ,统计 学 智能 数据 库 \、 知 识 获取 数据 可 视 化 、 高 性 能 计算 ,专家 系统 等 多 个 领域 。 从 
数据 库 中 发 现 的 知识 可 以 用 在 信息 管理 .过程 控制 .科学 研究 、 决 策 支持 等 许多 方面 。 

1989 年 8 月 在 美国 底特律 召开 的 第 11 届 国 际 人 工 智 能 联合 会 议 的 专题 讨论 会 上 首 
次 出 现 知 识 发 现 (KDD) 这 个 术语 。 此 后 ,由 美国 人 工 智能 协会 主办 的 KDD 国际 研讨 会 
已 经 召开 了 8 次 ,规模 由 原来 的 专题 讨论 会 发 展 到 国际 学 术 大 会 ,研究 重点 也 逐渐 从 发 现 
方法 转向 系统 应 用 ,注重 多 种 发 现 策略 和 技术 的 集成 ,以 及 多 种 学 科 之 间 的 相互 渗透 。 

数据 挖掘 是 知识 发 现 (KDD) 最 核心 的 部 分 。1998 年 在 第 四 届 知 识 发 现 与 数据 挖掘 
国际 学 术 会 议 上 不 仅 进行 了 学 术 讨论 ,并 且 有 30 多 家 软件 公司 展示 了 他 们 的 数据 挖掘 软 
件 产品 ,不 少 软件 已 在 北美 .欧洲 等 国 得 到 了 应 用 。 数 据 控 掘 经 历 了 十 多 年 的 发 展 ,现在 
已 经 成 为 一 个 自 成 体系 的 应 用 学 科 。 

数据 挖掘 数学 理论 基础 的 发 展 ,与 统计 学 的 发 展 密 不 可 分 。 稳 健 性 是 数据 分 析 中 十 
分 重要 的 概念 ,可 以 说 它 与 数据 分 析 有 同样 悠久 的 历史 ,但 百 余年 来 只 限于 朴素 的 思想 和 
简单 的 方法 。 直 到 20 世纪 60 年 代 ,P.J. Huber 和 下 . R. Hampel 等 人 建立 了 一 套 理论 才 
形成 稳健 统计 这 一 年 轻 的 分 支 , 开 创 性 地 解决 了 理论 分 布 假定 有 偏差 的 资料 分 析 问 题 , 推 
动 了 稳健 方法 的 迅猛 发 展 和 广泛 应 用 ,取得 的 主要 成 果 包 括 : 异常 值 诊断 ,高 杠杆 点 诊 
断 、 对 少量 污染 异常 敏感 的 回归 诊断 MM-estimator 等 稳健 估计 量 。 其 主要 意义 在 于 ,基于 
正 态 假定 的 理论 框架 正 被 打破 , 它 常常 以 衡量 在 某 个 确定 的 参数 模型 (如 正 态 ) 下 的 优良 
性 (例如 ,估计 量 的 方差 , 均 方 误差 ,检验 的 水 平 ,功效 等 ) 来 判别 一 个 统计 方法 的 好 坏 。 然 
而 对 于 实际 问题 ,一 般 不 可 能 找到 描述 它 的 严格 模型 ,常用 的 参数 模型 只 是 一 种 近似 地 描 
述 。 换 句 话说 ,对 每 一 组 数据 常 存在 许多 可 作为 其 近似 描述 的 模型 。 稳 健 性 估计 为 数据 
挖掘 的 统计 分 布 描述 提供 新 方向 ,但 其 中 也 存在 一 定 的 失误 ,主要 在 于 在 寻找 稳健 估计 量 
上 花费 了 太 多 时 间 。 

20 世纪 70 年 代 早 期 ,一 些 学 者 提出 探索 性 资料 分 析 ,John Tukey 提出 统计 建 模 应 结 
合资 料 的 真实 分 布 情况 ,其 主要 观点 包括 : (1) 数 据 分 析 应 从 数据 特征 出 发 研究 发 现 有 用 
信息 ,而 并 非 从 理论 分 布 假定 出 发 构建 模型 ;(2) 重 新 提出 描述 统计 在 资料 分 析 中 的 重 
要 性 。 

描述 统计 是 描绘 (Describe) 或 总 结 (Summarize) 的 观察 量 基 本 情况 的 统计 总 称 。 描 
述 统计 学 研究 如 何 取得 反映 客观 现象 的 数据 ,并 通过 图 表 形式 对 所 收集 的 数据 进行 加 工 
处 理 和 显示 ,进而 通过 综合 概括 与 分 析 得 出 反映 客观 现象 的 规律 性 数量 特征 。 通 过 对 数 
据 资料 进行 图 像 化 处 理 , 将 资料 摘要 变 为 图 表 , 可 以 直观 了 解 整体 资料 分 布 的 情况 。 通 常 
使 用 的 工具 是 频数 分 布 表 (Frequency Distribution Table ) 与 图 示 法 ,如 多 边 图 (Polygon)、 
直方 图 (Histogram/Barchart)、 圆 形 图 (Piechart) 、 散 点 图 (Scatterplot) 等 。 其 重要 意义 是 
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为 统计 学 指明 了 与 资料 相 结合 的 发 展 方向 ,但 其 中 也 有 很 多 不 足 , 主要 是 注重 完善 理论 ， 
未 关注 信息 领域 对 数据 分 析 工 具 的 需求 。 进 入 20 世纪 70 年 代 后 期 ,在 数据 挖掘 领域 
取得 了 下 面 两 个 主要 成 就 。 

(1) 广义 线性 模型 。 广 义 线性 建 模 是 线性 模型 在 研究 响应 值 的 非 正 态 分 布 以 及 非 线 
性 模型 的 简洁 直接 的 线性 转化 时 的 一 种 发 展 。 其 最 大 的 作用 就 是 将 看 似 零碎 的 统计 研究 
的 多 方面 的 贡献 统一 起 来 ,概括 了 基于 正 态 理 论 以 外 的 线性 模型 的 研究 。 

(2) EM 算法 。EM 算法 是 Dempster Laind Rubin 于 1977 年 提出 的 一 种 求 参数 极 大 
似 然 估 计 的 方法 , 它 可 以 从 非 完整 数据 集中 对 参数 进行 MLE 估计 ,是 一 种 非常 简单 实用 
的 学 习 算 法 。 这 种 方法 可 以 广泛 地 应 用 于 处 理 缺 损 数据 , 截 尾数 据 , 带 有 噪声 等 所 谓 的 不 
完全 数据 (Incomplete Data) ,其 重要 作用 是 解决 不 完整 数据 估计 问题 的 数值 方法 ,即使 数 
据 完 整 ,缺失 值 在 最 优 估计 的 计算 中 也 有 用 。 

20 世纪 80 年 代 及 以 后 ,资料 模拟 及 非 参 统计 的 发 展 使 得 数据 挖掘 技术 进入 思 新 的 
阶段 ,SVM ,神经 网 络 、.Bootstrap 法 的 提出 ,以 及 处 理 变量 非 线性 关系 的 核 光滑 (Kernel 
Smoothing) 法 增强 了 数据 挖掘 的 模式 识别 能 力 。 

(1) SVM。 支 持 向 量 机 (Support Vector Machine) 是 Cortes 和 Vapnik 于 1995 年 首 
先 提出 的 , 它 在 解决 小 样本 、 非 线性 及 高 维 模式 识别 中 表现 出 许多 特有 的 优势 ,并 能 够 扒 
广 应 用 到 函数 拟 合 等 其 他 机 器 学 习 问题 中 。 

(2) 神经 网 络 。20 世纪 80 年 代 初 期 ,模拟 与 数字 混合 的 超大 规模 集成 电路 制作 技术 
提高 到 了 新 的 水 平 ,完全 实现 了 实用 化 ,此 外 ,数字 计算 机 的 发 展 在 若干 应 用 领域 遇 到 困 
难 。 这 一 背景 和 1984 年 在 美国 科学 院 院 刊 上 发 表 的 两 篇 关于 人 工 神 经 网 络 的 研究 论文 ， 
引起 了 科学 界 的 巨大 反响 ,人 们 重新 认识 到 神经 网 络 的 威力 以 及 付 诸 应 用 的 现实 性 。 随 
即 一 大 批 学 者 和 研究 人 员 围 绕 着 Hopfield 提出 的 方法 展开 了 进一步 的 工作 ,推动 了 人 工 
神经 网 络 的 发 展 。 

(3) Bootstrap。1970 年 ,Efron 等 人 发 表 了 一 系列 的 论文 作为 Bootstrap 法 诞生 的 标 
志 , 即 在 已 知 数据 的 基础 上 ,通过 用 计算 机 来 模拟 N 趋 近 于 无 穷 大 时 的 情况 ,把 已 知 的 数 
据 不 断 地 重新 抽样 ,从 而 在 新 的 数据 中 得 出 原始 数据 的 信息 。 更 简单 地 讲 就 是 有 100 个 
数据 ,但 是 它们 没 办 法 真实 反映 样本 的 全 貌 , 则 对 这 100 个 数据 重新 随机 地 抽样 1000 次 ， 
这 样 就 得 到 了 1001 000 个 数据 点 ,样本 量 就 会 增 大 很 多 。 这 个 方法 把 统计 学 的 发 展 大 大 
推进 了 一 步 , 和 计算 机 的 结合 又 紧密 了 很 多 。 

(4) 核 光滑 。20 世纪 80 年 代 后 期 ,在 非 参数 领域 中 , 核 光滑 方法 (Kernel Smoothing) 
以 局 部 估计 的 特点 展示 了 统计 在 处 理 变 量 的 非 线性 关系 中 的 能 力 。 到 20 世纪 90 年 代 ， 
由 于 许多 应 用 问题 和 统计 问题 都 存在 对 象 复杂 和 难以 正确 识别 模型 结构 的 困难 ,这 些 问 
题 推动 了 统计 技术 的 研究 ,例如 ,通过 马尔 科 夫 链 模特 卡 罗 方 法 (Markov Chain Monte 
Carlo,MCMC) 模 拟 解决 复杂 性 问题 。 

当然 ,数据 挖掘 中 还 存在 许多 问题 有 待 进一步 研究 ,包括 下 列 几 个 研究 方向 : 

(1) 算法 效率 和 可 伸缩 性 。 目 前 数据 库 中 数据 的 规模 呈 指 数 增长 。 在 商业 数据 库 
中 ,GB 和 TB 规模 的 数据 库 也 已 经 非常 普遍 。PB 规模 的 数据 库 也 大 量 出 现 , 例 如 NASA 
轨道 卫星 上 的 地 球 观测 系统 (Earth Observing System,EOS) 每 小 时 会 向 地 面 发 回 大 量 图 
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像 数据 ,大 型 天 文 望远镜 每 年 会 产生 不 少 于 10TB 的 数据 等 。 据 统计 ,数据 和 计算 资源 的 
增长 速度 符合 摩尔 定理 ,每 18 个 月 翻 一 番 , 海 量 数据 挖掘 的 最 大 挑战 不 仅仅 在 于 数据 库 
中 数据 的 绝对 规模 ,还 在 于 数据 挖掘 系统 是 否 能 够 处 理 这 些 持续 增长 的 数据 集合 。 传 统 
的 进行 数据 分 析 的 算法 假设 数据 库 中 的 记录 数 比 较 少 ,然而 ,现在 许多 数据 库 大 到 内 存 无 
法 装 下 整个 数据 库 。 由 于 从 磁盘 中 获得 数据 明显 比 从 内 存 中 存 取 数据 慢 ,因此 为 了 保证 
高 效率 ,运用 到 大 型 数据 库 中 的 数据 挖掘 算法 应 该 是 高 度 可 伸缩 性 的 , 即 如 果 给 出 一 个 固 
定 的 内 存 大 小 ,算法 的 运行 时 间 随 着 输入 数据 库 的 记录 数 呈 线性 递增 ,就 说 该 算法 是 可 伸 
缩 的 。 假 设 现在 使 用 一 个 计算 复杂 度 为 On) 的 算法 ,根据 摩尔 定理 ,在 10 年 后 一 个 同 
样 的 数据 挖掘 任务 将 需要 现在 时 间 的 10 000 倍 。 其 原因 是 在 这 段 时 间 内 ,数据 的 规模 和 
计算 速度 将 大 约 增长 100 倍 ,而 计算 的 复杂 度 将 增加 1 000 000 倍 。 也 就 是 说 ,如 果 一 个 
数据 挖掘 任务 现在 需要 1 个 小 时 完成 ,10 年 后 , 它 的 运行 时 间 将 超过 一 年 。 因 此 ,运行 海 
量 数据 挖掘 的 算法 最 好 具有 线性 的 计算 复杂 度 O(z), 必须 能 有 效 地 处 理 海量 数据 ,其 算 
法 必须 是 高 效率 和 可 伸缩 的 。 

(2) 处 理 不 同类 型 的 数据 和 数据 源 。 目 前 数据 挖掘 系统 处 理 的 数据 库 大 多 是 关系 数 
据 库 。 随 着 数据 库 应 用 范围 和 规模 的 扩大 、 功 能 的 日 益 完 善 ,数据 库 中 将 包含 大 量 复杂 的 
数据 类 型 。 如 非 结 构 化 和 半 结 构 化 的 数据 ,复杂 的 数据 对 象 、 混 合 文本 、 多 媒体 数据 .时空 
数据 ,事务 数据 及 历史 数据 等 ,甚至 出 现 新 的 数据 库 模型 。 因 此 ,保证 数据 挖掘 系统 能 有 
效 地 处 理 不 同类 型 的 数据 库 中 的 数据 是 至 关 重 要 的 。 

(3) 数据 挖掘 系统 的 交互 性 。 数 据 挖 掘 中 操作 者 的 适当 参与 能 加 速 数据 挖掘 的 过 
程 。 一 方面 ,交互 界面 接收 用 户 的 检索 ,查询 要 求 和 数据 挖掘 策略 ,为 用 户 表 达 要 求 和 策 
略 提供 了 方便 ; 另 一 方面 ,交互 界面 又 把 生成 结果 传递 给 用 户 ,由 于 生成 的 结果 可 以 是 多 
种 多 样 的 。 因 此 ,能 友好 、 准 确 而 直观 地 描述 挖掘 结果 的 用 户 界面 一 直 是 研究 的 重要 课题 
之 一 。 

(4) Web 挖掘 。 由 于 Web 上 存 有 大 量 信息 ,并 且 Web 在 当今 社会 扮演 越 来 越 重要 
的 角色 ,因此 ,Web 挖掘 将 成 为 数据 挖掘 中 一 个 重要 和 繁荣 的 子 领域 。 

(5) 数据 挖掘 中 的 信息 保护 与 数据 安全 。 数 据 挖 掘 能 从 不 同 的 角度 ,不 同 的 抽象 层 
上 看 待 数 据 ,这 将 潜在 地 影响 数据 的 私有 性 和 安全 性 。 随 着 计算 机 网 络 的 日益 普及 ,研究 
数据 挖 气 可 能 导致 的 非法 数据 入 侵 是 实际 应 用 中 需要 解决 的 问题 之 一 。 

(6) 探索 新 的 应 用 领域 。 数 据 挖掘 的 应 用 领域 在 不 断 扩大 。 由 于 通用 数据 挖掘 系统 
在 处 理 特定 应 用 问题 时 有 其 局 限 性 ,因此 ,目前 的 一 种 趋势 是 开发 针对 特定 应 用 的 数据 挖 

(7) 标准 的 数据 挖 气 语 言 或 相关 方面 的 标准 化 工作 将 有 助 于 数据 挖掘 系统 的 研究 和 
开发 ,有 利于 用 户 学 习 和 使 用 数据 挖掘 系统 。 

(8) 数据 挖掘 结果 的 可 用 性 、 确 定性 及 可 表达 性 。 数 据 挖掘 所 发 现 的 知识 需 精确 地 
描述 数据 库 中 数据 的 内 容 , 并 对 已 明确 的 应 用 是 有 用 的 。 对 于 非 精确 的 结果 需 借助 不 确 
定 方式 来 表达 ,以 相似 的 规则 或 多 个 规则 来 描述 ,同时 ,噪声 及 应 去 除 的 数据 在 数据 挖掘 
系统 中 应 被 仔细 处 理 。 

(9) 各 种 数据 挖掘 结果 的 表达 。 数 据 挖掘 可 以 发 现 不 同 种 类 的 知识 , 既 可 以 从 不 同 
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的 角度 来 检验 发 现 的 知识 ,也 可 以 用 不 同 的 形式 来 表示 这 些 知识 ,这 就 要 求 既 要 表达 对 数 
据 挖掘 的 要 求 , 也 要 以 高 级 语言 或 图 形 用 户 界面 来 表达 发 现 的 知识 ,使 其 容易 被 用 户 理解 
和 运用 。 

(10) 可 视 化 数据 挖掘 。 可 视 化 数据 挖掘 是 从 大 量 数据 中 发 现 知识 的 有 效 途径 ,系统 
研究 和 开发 可 视 化 数据 挖掘 技术 将 有 助 于 推进 数据 挖掘 作为 数据 分 析 的 基本 工具 。 


1.3 数据 挖掘 的 研究 内 容 及 功能 
1.3.1 数据 挖掘 的 研究 内 容 


随 着 数据 挖掘 研究 逐步 走向 深入 ,已 经 形成 了 三 根 强大 的 技术 支柱 : 数据 库 . 人 工 智 
能 和 数理 统计 。 因 此 ,KDD 大 会 程序 委员 会 曾经 由 这 三 个 学 科 的 权威 人 物 同时 来 任 主 
席 。 目 前 数据 挖掘 的 主要 研究 内 容 包括 基础 理论 ,发现 算 法 、 数 据 仓库 .可 视 化 技术 、 定 性 
定量 互 换 模型 ,知识 表示 方法 、 发 现 知识 的 维护 和 再 利用 、 半 结构 化 和 非 结构 化 数据 中 的 
知识 发 现 以 及 Web 数据 挖掘 等 。 数 据 挖掘 所 发 现 的 知识 最 常见 的 有 以 下 5 类 。 


1. 广义 知识 (Generalization) 


广义 知识 指 类 别 特 征 的 概括 性 描述 知识 ,是 根据 数据 的 微观 特性 发 现 其 表征 的 、 带 有 
普遍 性 的 、 较 高 层次 概念 的 .中 观 和 宏观 的 知识 ,反映 同类 事物 共同 性 质 , 它 是 对 数据 的 概 
括 、 精 炼 和 抽象 。 

广义 知识 的 发 现 方法 和 实现 技术 有 很 多 ,如 数据 立方 体 、 面 向 属性 的 归 约 等 。 数 据 立 
方 体 还 有 其 他 一 些 别名 ,如 “多 维 数据 库 ”“ 实 现 视图 ”"“OLAP” 等 。 该 方法 的 基本 思想 
是 实现 某 些 常用 的 代价 较 高 的 聚集 函数 的 计算 ,诸如 计数 、 求 和 ,平均 .最 大 值 等 ,并 将 这 
些 实现 视图 存储 在 多 维 数据 库 中。 既然 很 多 聚集 函数 需 经 常 重复 计算 ,那么 在 多 维 数据 
立方 体 中 存放 预先 计算 好 的 结果 将 能 保证 快速 响应 ,并 可 灵活 地 提供 不 同 角度 和 不 同 抽 
象 层次 上 的 数据 视图 。 另 一 种 广义 知识 发 现 方法 是 加 拿 大 Simon Fraser 大 学 提出 的 面 
向 属性 的 归 约 方法 。 这 种 方法 以 类 SQL 语言 表达 数据 挖掘 的 查询 操作 ,收集 数据 库 中 的 
相关 数据 集 , 然 后 在 相关 数据 集 上 应 用 一 系列 数据 推广 技术 进行 数据 推广 ,包括 属性 删 
除 、 概 念 树 提升 、 属 性 阔 值 控制 .计数 及 其 他 聚集 函数 传播 等 。 


2. 关联 知识 (Association) 


关联 知识 反映 一 个 事件 和 其 他 事件 之 间 依 赖 或 关联 的 知识 ,又 称 依赖 (Dependency) 
关系 。 这 类 知识 可 用 于 数据 库 中 的 归 一 化 ,查询 优化 等 。 如 果 两 项 或 多 项 属性 之 间 存 在 
关联 ,那么 其 中 一 项 的 属性 值 就 可 以 依据 其 他 属性 值 进行 预测 。 最 为 著名 的 关联 规则 发 
现 方法 是 R. Agrawal 提出 的 Apriori 算法 。 关 联 规则 的 发 现 可 分 为 两 步 。 第 一 步 是 授 代 
识别 所 有 的 频繁 项 目 集 ,要 求 频繁 项 目 集 的 支持 率 不 低 于 用 户 设 定 的 最 低 值 ;第 二 步 是 从 
频繁 项 目 集中 构造 可 信 度 不 低 于 用 户 设 定 的 最 低 值 的 规则 。 识 别 或 发 现 所 有 频繁 项 目 集 
是 关联 规则 发 现 算法 的 核心 ,也 是 计算 量 最 大 的 部 分 。 
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3. 分 类 知识 (Classification & Clustering) 





分 类 知识 反映 同类 事物 共同 性 质 的 特征 型 知识 和 不 同事 物 之 间 的 差异 型 特征 知识 ， 
用 于 反映 数据 的 汇聚 模式 或 根据 对 象 的 属性 区 分 其 所 属 类 别 。 最 为 典型 的 分 类 方法 是 基 
于 决策 树 的 分 类 方法 , 它 从 实例 集中 构造 决策 树 , 是 一 种 有 指导 的 学 习 方法 。 该 方法 先 根 
据 训练 子 集 (又 称 为 窗口 ) 形 成 决策 树 , 如 果 该 树 不 能 对 所 有 对 象 给 出 正确 的 分 类 ,那么 选 
择 一 些 例外 加 入 到 窗口 中 ,重复 该 过 程 一 直到 形成 正确 的 决策 集 。 最 终结 果 是 一 棵 树 , 其 
叶 节点 是 分 类 名 称 , 中 间 节 点 是 带 有 分 支 的 属性 ,该 分 支 对 应 该 属性 的 某 一 可 能 值 。 最 为 
典型 的 决策 树 学 习 系 统 是 ID3 , 它 采用 自 顶 向 下 不 回溯 策略 ,能 保证 找到 一 棵 简单 的 树 。 
算法 C4. 5 和 C5. 0 都 是 ID3 的 扩展 ,它们 将 分 类 领域 从 类 别 属性 扩展 到 数值 型 属性 。 

数据 分 类 还 有 统计 、 粗 糙 集 (Rough Set) 等 方法 ,线性 回归 和 线性 辨别 分 析 是 典型 的 
统计 模型 ,为 降低 决策 树 生成 代价 ,人 们 还 提出 了 一 种 区 间 分 类 器 ,也 有 人 研究 使 用 神经 
网 络 方法 在 数据 库 中 进行 分 类 和 规则 提取 。 








4. 预测 型 知识 (Prediction) 


预测 性 知识 根据 时 间 序 列 型 数据 ,由 历史 的 和 当前 的 数据 去 推测 未 来 的 数据 ,也 可 以 
认为 是 以 时 间 为 关键 属性 的 关联 知识 。 目 前 ,时 间 序 列 预测 方法 有 经 典 的 统计 方法 、 神 经 
网 络 和 机 器 学 习 等 。1968 年 Box 和 Jenkins 提出 了 一 套 比较 完善 的 时 间 序 列 建 模 理 论 和 
分 析 方 法 ,这 些 经 典 的 数学 方法 通过 建立 随机 模型 ,如 自 回归 模型 、 自 回归 滑动 平均 模型 、 
求 和 自 回归 滑动 平均 模型 和 季节 调整 模型 等 ,进行 时 间 序 列 的 预测 。 由 于 大 量 的 时 间 序 
列 是 非 平 稳 的 ,其 特征 参数 和 数据 分 布 随 着 时 间 的 推移 而 发 生变 化 。 因 此 ,仅仅 通过 对 某 
段 历史 数据 的 训练 ,建立 单一 的 神经 网 络 预测 模型 ,还 无 法 完成 准确 的 预测 任务 。 为 此 ， 
人 们 提出 了 基于 统计 学 和 基于 精确 性 的 再 训练 方法 , 当 发 现 现存 预测 模型 不 再 适用 于 当 
前 数据 时 ,对 模型 重新 训练 ,获得 新 的 权重 参数 ,建立 新 的 模型 。 另 外 ,也 有 许多 系统 借助 
并 行 算 法 的 计算 优势 进行 时 间 序列 预测 。 


5. 偏差 型 知识 (Deviation) 





偏差 型 知识 是 对 差异 和 极端 特例 的 描述 ,揭示 事物 偏离 常规 的 异常 现象 ,如 标准 类 外 
的 特例 ,数据 聚 类 外 的 离 群 值 等 。 所 有 这 些 知识 都 可 以 在 不 同 的 概念 层次 上 被 发 现 ,并 随 
着 概念 层次 的 提升 ,从 微观 到 中 观 、 到 宏观 ,以 满足 不 同 用 户 不 同 层次 决策 的 需要 。 


1.3.2 数据 挖掘 的 功能 


数据 挖掘 用 于 在 指定 数据 挖掘 任务 中 找到 模式 类 型 ,数据 挖掘 任务 一 般 可 以 分 为 两 
类 : 描述 和 预测 。 描 述 性 挖掘 任务 刻画 数据 库 中 数据 的 一 般 特 性 ;预测 性 挖掘 任务 在 当 
前 数据 中 进行 推测 和 预测 。 用 户 有 时 不 知道 他 们 的 数据 中 什么 类 型 的 模式 是 有 趣 的 , 因 
此 数据 挖掘 系统 要 能 够 并 行 地 挖掘 多 种 类 型 的 模式 ,以 适应 不 同 的 用 户 需要 或 不 同 的 应 
用 。 此 外 ,数据 挖掘 系统 应 当 能 够 发 现 各 种 粒度 ( 即 不 同 的 抽象 层次 ) 的 模式 。 数 据 挖掘 
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系统 应 当 人 允许 用 户 给 出 提示 ,指导 或 者 聚焦 有 趣 模式 的 搜索 。 由 于 有 些 模式 并 非 对 数据 
库 中 的 所 有 数据 都 成 立 , 通 常 每 个 被 发 现 的 模式 需要 带 上 一 个 确定 性 或 “可 信 性 ”量度 。 
数据 挖掘 的 功能 主要 体现 在 以 下 六 个 方面 。 


1. 类 /概念 描述 : 特征 化 和 区 分 


数据 可 以 与 类 或 概念 相关 联 。 一 个 概念 常常 是 对 一 个 包含 大 量 数据 的 数据 集合 总 体 
情况 的 概述 。 对 含有 大 量 数 据 的 数据 集合 进行 描述 性 的 总 结 并 获得 简明 ,准确 的 描述 ,这 
种 描述 就 称 为 类 /概念 描述 (Class/Concept Description)。 这 种 描述 可 以 通过 以 下 方法 
得 到 ， 

(1) 数据 特征 化 ,一 般 地 汇总 所 研究 类 ( 称 为 目标 类 (Target Class) ) 的 数据 。 

(2) 数据 区 分 ,将 目标 类 与 一 个 或 者 多 个 比较 类 ( 常 称 为 对 比 类 (Contrasting Class)) 
比较 。 

(3) 数据 特征 化 和 比较 。 

数据 特征 化 (Data Characterization) 是 目标 类 数据 的 一 般 特征 或 特性 的 汇总 。 通 常 ， 
用 户 指 定 类 的 数据 通过 数据 库 查询 收集 。 例 如 ,为 研究 上 一 年 销售 增加 10% 的 软件 产品 
的 特征 ,可 以 通过 执行 一 个 SQL 查询 收集 关于 这 些 产 品 的 数据 。 

有 许多 有 效 的 方法 可 以 将 数据 特征 化 和 汇总 。 例 如 ,基于 数据 立方 体 的 OLAP 上 卷 
操作 可 以 用 来 执行 用 户 控制 的 , 沿 着 指定 维 的 数据 汇总 。 一 种 面向 属性 的 归纳 技术 可 以 
用 来 进行 数据 的 概 化 和 特征 化 ,而 不 必 一 步 步 地 与 用 户 进行 交互 。 

数据 特征 可 以 通过 多 种 形式 输出 ,包括 饼 图 .条 图 曲线、 多 维 数据 立方 体 和 包括 交叉 
表 在 内 的 多 维 表 。 结 果 描 述 也 可 以 由 概 化 关系 (Generalized Relation ) 或 规则 形式 ( 称 为 
特征 规则 ) 提 供 。 

数据 区 分 (Data Discrimination) 是 将 目标 类 对 象 的 一 般 特性 与 一 个 或 多 个 对 比 类 对 
象 的 一 般 特性 进行 比较 。 目 标 类 和 对 比 类 由 用 户 指 定 , 而 对 应 的 数据 通过 数据 库 查 询 检 
索 。 例 如 ,用 户 可 能 希望 将 上 一 年 销售 增加 10% 的 软件 产品 与 同一 时 期 销售 至 少 下 降 
30% 的 那些 产品 进行 比较 。 用 于 数据 区 分 的 方法 与 用 于 数据 特征 化 的 方法 类 似 。 

区 分 描述 的 输出 形式 类 似 于 特征 描述 ,但 区 分 描述 应 当 包 括 比较 量度 ,帮助 区 分 目标 
类 和 对 比 类 。 用 规则 表示 的 区 分 描述 称 为 区 分 规则 (Discriminant Rule)。 用 户 应 当 能 够 
对 特征 和 区 分 描述 的 输出 进行 操作 。 











2. 关联 分 析 


关联 分 析 (Association Analysis) 就 是 从 给 定 的 数据 集中 发 现 频繁 出 现 的 项 集 模 式 知 
识 , 又 称 为 关联 规则 (Association Rules)。 关 联 分 析 广 泛 应 用 于 市 场 营销 .事务 分 析 等 
领域 。 

通常 关联 规则 具有 X=Y 的 形式 即 *“A 人 … 人 4, 一 Bi 人 … 人 了 B,” 的 规则 ,其 中 ,Ai 
GE{1,2 e sm}) ,BiOE{11,2,…,z2)) 均 为 属性 - 值 的 形式 。 关 联 规 则 X=Y 表示 “数据 
库 中 满足 X 中 条 件 的 记录 (Tuples) 也 一 定 满足 Y 中 的 条 件 ”。 
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3. 分 类 和 预测 


分 类 (Classification) 就 是 找 出 一 组 能 够 描述 数据 集合 典型 特征 的 模型 (或 函数 ) ,以 
便 能 够 分 类 识别 未 知 数据 的 归属 或 类 别 (Class) ,即将 未 知事 例 映 射 到 某 种 离散 类 别 之 
一 。 分 类 模式 (或 函数 ) 可 以 通过 分 类 挖掘 算法 从 一 组 训练 样本 数据 (其 类 别 归 属 已 知 ) 中 
学 习 获 得 。 

分 类 挖掘 所 获得 的 分 类 模型 可 以 采用 多 种 形式 加 以 描述 输出 。 其 中 主要 的 表示 方法 
有 : 分 类 规则 (IF-THEN) ,决策 树 (Decision Trees) 数学 公式 (Mathematical Formulate) 
和 神经 网 络 。 分 类 规则 容易 由 判定 树 转换 而 成 。 决 策 树 是 一 个 类 似 于 流程 图 的 树 结构 ， 
每 个 节点 代表 一 个 属性 值 上 的 测试 ,每 个 分 支 代表 测试 的 一 个 输出 ,树叶 代表 类 和 类 分 
布 。 神 经 网 络 在 用 于 分 类 时 是 一 组 类 似 于 神经 元 的 处 理 单元 ,单元 之 间 加 权 连 接 。 

分 类 可 以 用 来 预测 数据 对 象 的 类 标记 。 然 而 ,在 某 些 应 用 中 ,人 们 可 能 希望 预测 某 些 
空缺 或 未 知 的 数据 值 , 而 不 是 类 标记 。 当 被 预测 的 值 是 数据 数值 时 ,通常 称 为 预测 
(Prediction)。 尽 管 预 测 可 以 涉及 数据 值 预测 和 类 标记 预测 ,但 预测 通常 是 指 值 预测 ,并 
不 同 于 分 类 。 预 测 同时 也 包含 基于 可 用 数据 的 分 布 趋势 识别 。 

相关 分 析 (Relevance Analysis) 可 能 需要 在 分 类 和 预测 之 前 进行 , 它 试图 识别 对 分 类 
和 预测 无 用 的 属性 ,这 些 属性 应 当 排除 。 


4， 聚 类 分 析 


RAH (Clustering Analysis) 与 分 类 预测 方法 的 明显 不 同 之 处 在 于 ,后 者 学 习 获 得 
分 类 预测 模型 所 使 用 的 数据 是 已 知 类 别 属性 (Class-labeled Data) ,属于 有 监督 学 习 方法 ， 
而 聚 类 分 析 ( 无 论 是 在 学 习 还 是 在 归 类 预测 时 ) 所 分 析 处 理 的 数据 均 是 无 (事先 确定 ) 类 别 
归属 的 。 类 别 归 属 标志 在 聚 类 分 析 处 理 的 数据 集中 是 不 存在 的 , 聚 类 也 便于 将 观察 到 的 
内 容 分 类 编制 (Taxonomy Formation) 成 类 分 层 结构 ,把 类 似 的 事件 组 织 在 一 起 。 


5. 孤立 点 分 析 





数据 库 中 可 能 包含 一 些 与 数据 的 一 般 行为 或 模型 不 一 致 的 数据 对 象 ,这 些 数据 对 
象 被 称 为 孤立 点 (Outlier) 。 大 部 分 数据 挖掘 方法 将 孤立 点 视 为 噪声 或 异常 而 丢弃 , 然 
而 在 一 些 应 用 场合 ,如 各 种 商业 欺诈 行为 的 自动 检测 中 ,小 概率 发 生 的 事件 (数据 ) 往 往 比 
经 常 发 生 的 事件 (数据 ) 更 有 挖掘 价值 ,孤立 点 数据 分 析 通常 称 为 孤立 点 挖掘 (Outlier 
Mining). 

孤立 点 可 以 使 用 统计 试验 检测 。 它 假定 一 个 数据 分 布 或 概率 模型 ,并 使 用 距离 进行 
量度 ,到 其 他 聚 类 的 距离 很 大 的 对 象 被 视 为 孤立 点 。 基 于 偏差 的 方法 通过 考察 一 群 对 象 
的 主要 特征 上 的 差别 来 识别 孤立 点 ,而 不 是 使 用 统计 或 距离 量度 。 


6. 演变 分 析 


数据 演变 分 析 (Evolution Analysis) 就 是 对 随时 间 变 化 的 数据 对 象 的 变化 规律 和 趋 
势 进行 建 模 描述 。 这 一 建 模 手段 包括 概念 描述 .对 比 概念 描述 ,关联 分 析 、 分 类 分 析 \ 时 间 
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相关 数据 (Time-Related) 分 析 。 时 间 相 关 数 据 分 析 又 包括 时 序数 据 分 析 、 序 列 或 周期 模 
式 匹配 以 及 基于 相似 性 的 数据 分 析 等 。 


1.4 数据 挖掘 的 常用 技术 及 工具 
1.4.1 数据 挖掘 的 常用 技术 


1. 预测 (Forecast) 技 术 


为 了 科学 .详细 地 了 解 某 企业 ( 某 生产 部 门 ) 的 业务 发 展 情况 和 今后 的 走势 ,可 采用 预 
测 技术 对 其 生产 有 利 的 条 件 进行 科学 论证 和 判断 。 一 般 在 预测 过 程 中 ,可 以 根据 目标 范 
围 的 不 同 ,将 其 分 为 宏观 预测 和 微观 预测 。 例 如 宏观 经 济 预测 是 指 对 整个 国民 经 济 或 一 
个 地 区 一 个 部 门 的 经 济 发 展 前 景 的 预测 ;而 微观 经 济 预测 是 以 单个 经 济 单位 的 经 济 活动 
前 景 作为 考察 对 象 的 。 按 预测 期 限 长 短 不 同 , 可 分 为 长 期 预测 .中 期 预测 和 短期 预测 。 按 
预测 结果 的 性 质 不 同 ,可 分 为 定性 预测 与 定量 预测 ,有 时 也 采用 混合 预测 方法 。 





2. 关联 规则 (Association Rules) 技 术 


关联 规则 技术 主要 应 用 在 从 大 型 数据 库 中 找到 潜在 的 属性 相关 的 知识 上 。 例 如 , 通 
过 调研 发 现 ,客户 在 许多 的 汽车 修理 部 门 修理 汽车 的 同时 ,也 存在 着 购买 汽车 椅 垫 和 其 他 
零 部 件 的 可 能 ,如 果 将 这 些 相 关 的 物品 和 零 部 件 都 放 在 汽车 修理 部 门 中 , 则 会 发 现 三 者 的 
效率 会 同时 上 升 。 目 前 ,利用 关联 属性 技术 进行 数据 挖掘 的 研究 非常 盛行 ,著名 的 
Apriori 算 法 属于 目前 关联 属性 挖掘 的 较 好 算法 模型 之 一 ,已 经 被 应 用 在 不 同 的 研究 领 
域 中 。 


3. 聚 类 分 析 (Clustering Analysis) £ 


聚 类 分 析 是 根据 事物 的 特征 对 其 进行 聚 类 或 分 类 ,通过 聚 类 或 分 类 发 现 其 中 的 规律 
和 模式 。 肾 类 或 分 类 以 后 ,样本 数据 集 就 转化 为 类 集 。 同 一 类 的 样本 数据 具有 相似 的 变 
量 值 ,不 同类 的 样本 数据 的 变量 值 不 具有 相似 性 。 


4. BE (Rough Sets) 技 术 


该 技术 采用 的 理论 是 粗糙 集 理论 ,将 约 简 技 术 应 用 在 不 确定 数据 的 范 化 和 数据 挖掘 
中 。 粗 糙 集 理论 是 波兰 Pawlak Z 教授 在 1982 年 提出 的 一 种 智能 决策 分 析 工具 , 它 是 一 
种 刻画 不 完整 性 和 不 确定 性 的 数学 工具 ,能 有 效 地 分 析 不 精确 ,不 一 致 .不 完整 等 各 种 不 
完备 的 信息 ,并 且 能 够 将 不 确定 数据 分 析 的 结果 即 不 确定 和 不 精确 的 知识 用 已 知 的 知识 
库 来 近似 刻画 和 处 理 。 利 用 粗糙 集 理 论 可 以 解决 的 实际 问题 有 不 确定 (不 精确 ) 数 据 的 简 
化 .不 确定 (不 精确 ) 数 据 的 关联 性 发 现 、 不 确定 (不 精确 ) 数 据 所 产生 的 决策 模型 .不 确定 
(不 精确 ) 数 据 所 产生 的 范 化 ,基于 不 确定 (不 精确 ) 数 据 的 知识 发 现 等 。 
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5. 进化 计算 (Evolutionary Computation,EC) 技 术 


基于 生物 界 的 自然 选择 和 自然 遗传 机 制 的 计算 方法 ,如 遗传 算法 (Genetic Algorithm, 
GA) .进化 策略 (Evolution Strategies, ES) 和 进化 规则 (Evolutionary Programming, EP) 
等 方法 ,在 科研 和 实际 问题 中 的 应 用 越 来 越 广泛 ,并 取得 了 较 好 的 成 果 。 这 些 方 法 都 是 基 
于 生物 进化 的 基本 思想 来 设计 、 控 制 和 优化 人 工 系统 的 ,一 般 将 这 类 计算 方法 统称 为 进化 
计算 ,而 将 相应 的 算法 统称 为 “进化 算法 ”或 者 "进化 程序 ”。 这 些 方法 可 以 在 可 以 承受 的 
计算 时 间 内 ,很 好 地 解决 复杂 的 非 线 性 优化 问题 ,克服 具有 多 个 局 部 极 值 的 非 线 性 最 优化 
问题 ,找到 全 局 最 优 解 ,也 可 以 解决 复杂 的 组 合 规划 或 者 整数 规划 问题 。 











6. 灰色 系统 (Grey System) 技 术 


灰色 系统 是 通过 对 原始 数据 的 收集 与 整理 来 寻求 其 发 展 变化 规律 的 。 客 观 系统 所 表 
现 出 来 的 现象 尽管 烦琐 ,但 其 发 展 变化 有 着 自己 的 客观 逻辑 规律 ,是 系统 整体 各 功能 间 的 
协调 统一 。 因 此 ,如 何 通过 散乱 的 数据 序列 去 寻找 其 内 在 的 发 展 规律 就 显得 特别 重要 。 
灰色 系统 理论 认为 ,一 切 灰色 序列 都 能 通过 某 种 生成 弱化 其 随机 性 而 呈现 本 来 的 规律 , 认 
为 微分 方程 能 较 准 确 地 反映 事件 的 客观 规律 ,也 就 是 通过 灰色 数据 序列 建立 系统 反应 模 
型 ,并 通过 该 模型 预测 系统 的 可 能 变化 状态 。 


7. 模糊 逻辑 (Fuzzy Logic) 


模糊 数学 是 继 经 典 数学 统计 数学 之 后 ,在 数学 上 的 又 一 新 的 发 展 。 在 数据 挖掘 领 
域 ,基于 模糊 逻辑 可 以 实现 模糊 综合 判别 ,模糊 聚 类 分 析 等 多 种 数据 挖掘 模型 。 





8， 人 工 智能 (Artificial Intelligence,AI) 技 术 


人 工 智能 研究 计算 和 知识 之 间 的 关系 。 用 机 器 去 模拟 人 的 智能 ,使 机 器 具有 类 似 于 
人 的 智能 ,其 本 质 是 研究 如 何 构造 智能 机 器 或 智能 系统 ,以 模拟 、 延 伸 、 扩 展 人 类 的 智能 。 
人 工 智能 技术 包括 推理 技术 、 搜 索 技术 、 知 识 表示 与 知识 库 技术 、 归 纳 技 术 、 联 想 技术 , 分 
类 技术 、. 聚 类 技术 等 ,其 中 最 基本 的 三 种 技术 即 知识 表示 、 推 理 和 搜索 都 在 数据 挖掘 中 得 
到 了 体现 。 


9. 决策 树 (Decision Tree) 技 术 


决策 树 技术 主要 指 的 是 针对 给 定 的 一 组 样本 数据 ,根据 其 对 应 的 规则 ,最 终 选 取 相应 
的 一 组 动作 。 决 策 树 方法 是 利用 训练 集 生 成 一 个 测试 函数 ,根据 不 同 的 取 值 建立 树 的 分 
支 ;在 每 个 分 支 子 集中 重复 建立 下 层 节点 和 分 支 。 这 样 便 生出 一 棵 决策 树 ,然后 对 决策 树 
进行 剪 枝 处 理 ,最 后 把 决策 树 转化 为 规则 ,决策 树 方法 主要 用 于 分 类 挖掘 。 国 际 上 最 早 、 
也 是 最 有 影响 的 决策 树 方法 是 在 1986 年 由 Quinlan 提出 的 ID3。 





10. 统计 分 析 (Statistical Analysis) 方 法 


统计 学 在 数据 样本 选择 数据 预 处 理 、 数 据 挖 掘 过 程 及 评价 抽取 知识 的 步骤 中 有 着 非 














常 重 要 的 作用 。 许 多 统计 学 的 工作 是 针对 数据 和 假设 检验 的 模型 进行 评价 的 ,也 包括 评 
价 数据 挖掘 的 结果 。 在 数据 预 处 理 步骤 中 ,统计 学 提出 了 估计 噪声 参数 过 程 中 要 用 的 平 
滑 处 理 技术 ,一 定 程度 上 补足 丢失 数据 和 消除 奇异 值 对 结果 的 负面 影响 作用 。 数 据 总 结 
的 最 简单 的 方法 就 是 传统 的 统计 方法 ,还 可 利用 图 形 工具 ,将 结果 直观 地 提供 给 分 析 者 。 
多 元 统计 分 析 能 在 一 定 程度 上 达到 数据 挖掘 的 目的 ,在 数据 挖掘 的 数据 收集 清理 环节 发 
挥 作 用 。 





11. 知识 获取 (Knowledge Acquisition) .知识 表示 (Knowledge Representation) .知识 
推理 (Knowledge Reasoning) 和 知识 搜索 (Knowledge Search) 技术 


知识 表示 是 指 在 计算 机 中 对 知识 的 一 种 描述 ,是 一 种 计算 机 可 以 接受 的 用 于 描述 知 
识 的 数据 结构 。 知 识 推理 技术 从 已 知 的 事实 出 发 ,运用 已 掌握 的 知识 ,或 归纳 出 新 的 知 
识 。 知 识 搜索 是 根据 问题 的 实际 情况 不 断 寻 找 可 利用 的 知识 ,从 而 构造 一 条 代价 较 小 的 
推理 路 线 的 。 





12. 决策 与 控制 理论 (Decision and Control) 


传统 的 决策 支持 系统 (Decision Support System,DSS) 通 常 是 在 某 个 假设 的 前 提 下 通 
过 数据 查询 和 分 析 来 验证 或 否定 这 个 假设 ,而 数据 挖掘 技术 则 能 够 自动 分 析 数据 ,进行 归 
纳 整理 ,从 中 发 现 潜在 的 模式 ,或 产生 联想 ,建立 新 的 业务 模型 ,帮助 决策 者 调整 市 场 策略 
并 找 出 正确 的 决策 。 数 据 挖掘 的 出 现 使 决策 支持 工具 跨 入 了 一 个 新 阶段 。 数 据 挖掘 技术 
的 兴起 为 智能 决策 支持 系统 (Intelligent Decision Support System,IDSS) 的 研究 指明 了 一 
个 新 的 方向 , 即 基于 数据 挖掘 的 IDSS。 





13. 可 视 化 技术 (Visual Technology) 


该 方法 采用 直观 的 图 形 图 表 方式 将 挖掘 出 来 的 模式 加 以 表现 ,数据 可 视 化 大 大 扩展 
了 数据 的 表达 能 力 从 而 也 便于 用 户 的 理解 。 因 此 ,数据 挖掘 中 的 可 视 化 技术 得 到 数据 控 
掘 研究 人 员 日 益 广泛 的 重视 。 


14. 并 行 计算 技术 (Parallel Computing Technologies) 和 海量 存储 (Mass Storage) 


强大 的 并 行 处 理 计算 机 可 以 提高 数据 挖掘 的 应 用 ,因为 并 行 处 理 技术 可 以 将 一 个 复 
杂 的 查询 分 解 成 多 个 子 查询 ,每 个 子 查询 交 给 不 同 的 处 理 器 ,这 一 处 理 过 程 是 并 行 执行 
的 。 因 此 ,并 行 处 理 技术 可 以 大 大 加 速 数 据 挖掘 的 过 程 。 
现在 的 数据 仓库 存储 的 数据 量 是 GB 到 TB 级 别 , 随 着 时 间 的 推移 ,可 能 会 扩展 几 百 
倍 , 因 此 ,廉价 可 行 的 存储 技术 对 于 数据 挖掘 来 说 变 得 非常 重要 。 目 前 ,普遍 采用 的 是 二 
级 存储 技术 , 即 磁盘 ( 磁 光 盘 ) 一 主 存 两 级 存储 ,由 于 缺乏 快速 的 访问 和 存储 磁盘 技术 , 随 
着 存储 容量 的 增长 .数据 挖掘 查询 越 来 越 复杂 以 及 并 行 处 理 器 速度 的 加 快 ,存储 技术 可 能 
会 成 为 数据 挖掘 的 新 瓶颈 。 

综 上 所 述 , 数 据 挖 掘 的 常用 技术 ,如 图 1-1 所 示 。 
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图 1-1 数据 挖掘 的 常用 技术 















































1.4.2 数据 挖掘 的 工具 


1， 基 于 神经 网 络 的 工具 


神经 网 络 用 于 分 类 ,特征 挖掘 ,预测 和 模式 识别 。 人 工 神经 网 络 仿真 生物 神经 网 络 ， 
本 质 上 是 一 个 分 散 型 或 矩阵 结构 , 它 通 过 训练 数据 的 挖掘 ,逐步 计算 网 络 连 接 的 加 权 值 ， 
由 于 对 非 线性 数据 具有 快速 建 模 能 力 ,基于 神经 网 络 的 数据 挖掘 工具 现在 越 来 越 流行 。 
其 开采 过 程 基本 上 是 将 数据 聚 类 ,然后 分 类 计算 权 值 。 神 经 网 络 很 适合 分 析 非 线性 数据 
和 含 噪声 数据 ,所 以 在 市 场 数 据 库 的 分 析 和 建 模 方面 应 用 广泛 。 





2， 基 于 规则 和 决策 树 的 工具 


大 部 分 数据 挖掘 工具 采用 规则 发 现 或 决策 树 分 类 技术 来 发 现 数据 模式 和 规则 ,其 核 
心 是 某 种 归纳 算法 。 这 类 工具 通常 是 对 数据 库 的 数据 进行 开采 ,产生 规则 和 决策 树 ,然后 
对 新 数据 进行 分 析 和 预测 。 其 主要 优点 是 : 规则 和 决策 树 都 是 可 读 的 。 


3. 基于 模糊 逻辑 的 工具 


该 方法 应 用 模糊 逻辑 进行 数据 查询 ,排序 等 。 它 使 用 模糊 概念 和 “最 近 ” 搜 索 技术 的 
数据 查询 工具 ,可 以 让 用 户 制定 目标 ,然后 对 数据 库 进 行 搜索 , 找 出 接近 目标 的 所 有 记录 ， 
对 结果 进行 评估 。 














4. 综合 多 方法 的 工具 

不 少数 据 挖掘 工具 采用 了 多 种 开采 方法 ,这 类 工具 一 般 规模 较 大 ,适用 于 大 型 数据 库 
(包括 并 行 数据 库 ) 。 这 类 工具 开采 能 力 很 强 ,但 价格 昂贵 ,并 要 花 很 长 时 间 进 行 学 习 。 
1.5 数据 挖掘 的 应 用 热点 


数据 挖掘 技术 源 于 商业 的 直接 需求 ,并 在 各 种 领域 都 有 广泛 的 使 用 价值 。 数 据 挖掘 
已 在 金融 、 零 售 、 医 药 、 通 信 、 电 子 工程 .航空 .旅馆 等 具有 大 量 数据 和 深度 分 析 需 求 、 易 产 
生 大 量 数 字 信息 的 领域 得 到 广泛 使 用 ,并 带 来 了 巨大 的 社会 效益 和 经 济 效益 。 它 既 可 以 
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检验 行业 内 长 期 形成 的 知识 模式 ,也 能 够 发 现 隐藏 的 新 规律 。 将 数据 挖掘 用 于 企业 信息 
管理 ,虽然 面临 着 很 大 的 挑战 和 许多 急 待 解决 的 问题 ,但 有 充分 的 理由 相信 ,这 些 问题 将 
随 着 各 应 用 领域 的 信息 化 推进 逐步 得 到 解决 ,数据 挖掘 的 应 用 前 景 十 分 乐观 。 


1. 金融 领域 的 应 用 





在 金融 方面 ,银行 和 金融 机 构 往 往 持 有 大 量 关 于 客户 的 、 各 种 服务 的 以 及 交易 事务 的 
数据 ,并 且 这 些 数据 通常 比较 完整 可 靠 和 高 质量 ,这 大 大 方便 了 系统 化 的 数据 分 析 和 数据 
挖掘 。 在 银行 业 中 ,数据 挖掘 被 用 来 建 模 、 预 测 ,识别 伪造 信用 卡 ,估计 风险 ,进行 趋势 分 
析 、 效 益 分 析 、 顾 客 分 析 等 。 在 此 领域 运用 数据 挖掘 ,可 以 进行 贷款 偿付 预测 和 客户 信用 
政策 分 析 以 调整 贷款 发 放 政策 ,降低 经 营 风险 。 信 用 卡 公司 可 以 应 用 数据 挖掘 中 的 关联 
规则 来 识别 欺诈 。 股 票 交易 所 和 银行 也 有 这 方面 的 需要 。 对 目标 客户 群 进行 分 类 及 聚 
类 ,以 识别 不 同 的 客户 群 ,为 不 同 的 客户 提供 更 好 的 服务 ,以 推动 市 场 。 此 外 ,还 可 以 运用 
数据 分 析 工 具 找 出 异常 模式 ,以 侦破 洗钱 和 其 他 金融 犯罪 活动 。 智 能 数据 挖掘 利用 了 广 
泛 的 高 质量 的 机 器 学 习 算法 ,能 够 在 应 付 大 量 数据 的 同时 保证 理想 的 响应 时 间 , 使 得 市 场 
分 析 、 风 险 预测 .欺诈 管理 ,客户 关系 管理 和 竞争 优势 分 析 等 应 用 成 为 可 能 。 


2. 网 络 金 融 交 易 方 面 


从 网 络 金融 角度 来 看 ,网 络 金融 是 指 通 过 互联 网 进行 的 金融 交易 。 这 种 交易 具有 速 
度 快 ,交易 量 大 交易 次 数 多 ,交易 人 所 在 地 分 散 的 特点 。 这 种 基于 生产 力 水 平 的 加 速 党 
常 超 出 生产 力 本 身 的 发 展 速度 ,使 人 类 进入 脆弱 的 虚拟 经 济 时 代 。 在 股市 交易 中 ,人 们 的 
兴趣 在 于 预测 股市 起 伏 ,并 且 各 种 各 样 的 算法 都 曾经 被 使 用 过 。 有 的 算法 在 一 种 情况 下 
有 效 或 在 一 段 时 间 内 有 效 , 有 的 算法 更 能 捕捉 转瞬 即 逝 的 个 股 买 卖点 或 在 众多 股票 中 选 
出 应 买卖 的 股票 。 金 融 时 序数 据 是 一 种 常见 的 数据 结构 ,在 这 方面 ,已 有 不 少 学 者 研究 了 
对 其 进行 挖掘 的 一 般 性 问题 或 框架 。 对 股市 进行 动态 数据 挖掘 ,可 以 随时 掌握 由 大 量 数 
据 所 反映 的 金融 市 场 暗流 。 此 外 ,还 可 以 将 监管 搜索 范围 完全 扩大 到 一 般 的 网 页 上 ,借助 
一 定 的 文字 分 析 技 术 提 高 准确 率 。 

另 一 方面 的 应 用 是 研究 股市 炒作 的 快速 检测 算法 和 技术 。 互 联网 的 出 现 和 使 用 也 只 
是 近 十 余年 的 事 ,而 标志 着 金融 领域 重要 突破 的 中 国 股市 的 产生 和 发 展 也 正好 在 这 十 余 
年 。 电 子 交易 每 天 产生 的 海量 数据 已 超出 人 工 处 理 的 能 力 ,但 这 正 使 得 应 用 计算 机 算法 
进行 智能 自动 监控 成 为 可 能 。 从 证 监 会 的 角度 看 ,可 以 通过 各 种 交易 数据 发 现 异常 现象 
和 相应 的 操作 ,识别 出 哪些 是 合法 炒作 ,哪些 是 非法 炒作 。 


3. 零售 业务 应 用 


在 零售 业 方面 ,计算 机 使 用 率 越 来 越 高 ,大 型 超市 大 多 配备 了 完善 的 计算 机 及 数据 库 
系统 。 零 售 业 积累 的 大 量 销售 数据 ,顾客 购买 历史 记录 、 货 物 进出 与 服务 记录 等 数据 中 真 
正 有 价值 的 信息 是 哪些 ? 这些 信 息 之 间 有 哪些 关联 ? 回答 这 些 问题 就 需要 对 大 量 的 数据 
进行 深层 分 析 , 从 而 获得 有 利于 商业 运作 、 提 高 竞争 力 的 信息 。 数 据 挖掘 技术 有 助 于 识别 
顾客 购买 行为 ,发 现 顾客 购买 模式 和 趋势 ,改进 服务 质量 ,取得 更 高 的 顾客 保持 力 和 满意 
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程度 ,降低 零售 业 成 本 。 

通常 企业 所 掌握 的 客户 信息 特别 是 以 前 购买 行为 的 信息 中 ,可 能 正 包含 着 这 个 客户 
决定 他 下 一 个 购买 行为 的 关键 信息 ,甚至 是 决定 性 因素 。 这 个 时 候 的 数据 挖掘 的 作用 就 
体现 为 它 可 以 帮助 企业 寻找 到 那些 影响 顾客 购买 行为 的 信息 和 因素 。 对 这 些 丰富 数据 资 
源 的 挖掘 ,有 助 于 识别 顾客 购买 行为 ,发 现 顾客 购买 模式 和 趋势 ,改进 服务 质量 ,取得 更 高 
的 顾客 满意 程度 ,提高 销量 。 

还 有 一 个 问题 就 是 研究 超市 顾客 的 购买 行为 ,这 是 一 种 典型 的 时 间 序 列 挖掘 问题 ,在 
零售 服务 业 中 ,直接 给 潜在 的 顾客 寄 广告 是 一 种 常见 的 办 法 。 通 过 分 析 人 们 的 购买 模式 ， 
估计 他 们 的 收入 和 孩子 数目 ,作为 潜在 的 市 场 信息 。 在 庞大 的 数据 集中 找 出 哪些 人 适合 
寄 广告 或 折扣 券 ,哪些 人 会 喜欢 哪 一 类 的 折扣 券 ,哪些 人 应 给 予 的 折扣 多 些 , 哪 些 产品 摆 
在 一 起 会 比分 别 放 在 各 自 的 类 中 卖 得 更 快 更 多 ,这 都 成 了 数据 挖掘 的 任务 。 

零售 业 中 数据 挖掘 的 成 功 应 用 包括 : 四 销售 、 顾 客 .产品 时间 和 地 区 的 多 维 分 析 ， 
@ 对 促销 活动 有 效 性 的 分 析 , 以 此 提高 企业 利润 ; @ 对 顾客 忠诚 度 的 分 析 , 以 留 住 老 客 
户 , 吸 引 新 客户 ; @ 挖 掘 关联 信息 ,以 形成 购买 推荐 和 商品 参照 ,以 帮助 顾客 选择 商品 , 提 


4 医疗 电信 领域 应 用 


在 医疗 领域 中 ,成 堆 的 电子 数据 可 能 已 放 在 那里 很 多 年 了 ,如 病人 ,症状 ,发 病 时 间 、 
发 病 频 率 以 及 当时 的 用 药 种 类 ,剂量 、 住 院 时 间 等 。 在 药物 实验 中 ,可 能 有 很 多 这 种 方法 
已 经 被 许多 大 的 制药 公司 所 采用 。 生 物 医学 的 大 量 研 究 大 都 集中 在 DNA 数据 的 分 析 
上 ,人 类 大 约 有 10° 个 基因 ,几乎 不 计 其 数 。 因 此 ,数据 挖掘 成 为 DNA 分 析 中 的 强大 工 
具 , 如 对 DNA 序列 时 间 的 相似 搜索 和 比较 ;应 用 关联 分 析 对 同时 出 现 的 基因 序列 的 识 
别 ;应 用 路 径 分 析 发 现在 疾病 不 同 阶段 的 致 病 基因 等 。 

电信 业已 经 迅速 从 单纯 的 提供 市 话 和 长 话 服务 演变 为 综合 电信 服务 ,如 语音 ,传真 、 
寻 呼 、 移 动 电话 、 图 形 . 电 子 邮件 互联 网 接 入 服务 等 。 电 信 市 场 的 竞争 也 变 得 越 来 越 激烈 
和 全 方位 化 。 目 前 ,不 管 是 住宅 电话 还 是 移动 电话 ,每 天 的 使 用 量 很 大 。 对 电话 公司 来 
讲 , 如 何 充 分 使 用 这 些 数据 为 自己 赢得 更 多 的 利润 就 成 了 主要 问题 。 利 用 数据 挖掘 来 帮 
助理 解 商 业 行为 .对 电信 数据 的 多 维 分 析 、 检 测 非典 型 的 使 用 模式 以 寻找 潜在 的 盗用 者 、 
分 析 用 户 一 系列 的 电信 服务 使 用 模式 来 改进 服务 ,根据地 域 分 布 政 密 性 找 出 最 急需 建立 
网 点 的 位 置 确定 电信 模式 .捕捉 盗用 行为 .更 好 地 利用 资源 和 提高 服务 质量 ,是 非常 必要 
的 。 借 助 数 据 挖掘 ,可 以 减少 很 多 损失 ,保住 顾客 。 

数据 挖掘 在 电信 业 的 应 用 包括 : 对 电信 数据 的 多 维 分 析 ; 加 检测 非典 型 的 使 用 模式 
以 寻找 潜在 的 盗用 者 ; @ 分 析 用 户 一 系列 的 电信 服务 使 用 模式 来 改进 服务 ; OBOE é, 


1.6 小 结 


数据 库 技术 已 经 从 原始 的 数据 处 理发 展 到 开发 具有 事务 处 理 能 力 的 数据 库 管理 系 
统 。 进 一 步 的 发 展 导致 越 来 越 需 要 有 效 的 数据 分 析 ,数据 挖掘 和 数据 理解 工具 ,这 种 需求 
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是 各 种 应 用 (如 商务 管理 ,行政 管理 以 及 环境 控制 等 ) 收 集 的 数据 爆炸 性 增长 的 必然 结果 。 
本 章 详 细 分 析 了 数据 挖掘 中 的 一 些 基本 概念 ,阐述 了 数据 挖掘 技术 的 历史 和 发 展 ,总 结 了 
数据 挖掘 的 内 容 和 功能 ,分 析 了 现 有 数据 挖掘 技术 和 工具 ,同时 介绍 了 数据 挖掘 的 应 用 
热点 。 


. 什么 是 数据 挖掘? 

. 简 述 数据 挖掘 所 发 现 的 最 常见 的 5 类 知识 。 

. 定义 下 列 数据 挖掘 功能 : 特征 化 区分, 关联、 分 类 ,预测 、 聚 类 和 演变 分 析 。 
.列举 数据 挖掘 的 相关 技术 。 


a co t — 














第 2 章 数据 预 处 理 


2.1 数据 预 处 理 的 目的 


数据 预 处 理 (Data Preprocessing) 是 指 在 对 数据 进行 数据 挖掘 的 主要 处 理 以 前 , 先 对 
原始 数据 进行 必要 的 清理 ,集成 .转换 、 离 散 和 归 约 等 一 系列 的 处 理工 作 ,以 达到 挖掘 算法 
进行 知识 获取 的 目的 并 研究 所 要 求 的 最 低 规范 和 标准 。 

数据 挖掘 的 对 象 是 从 现实 世界 采集 到 的 大 量 的 各 种 各 样 的 数据 。 由 于 现实 生产 和 实 
际 生活 以 及 科学 研究 的 多 样 性 .不 确定 性 、 复 杂 性 等 ,导致 我 们 采集 到 的 原始 数据 比较 散 
乱 , 它 们 是 不 符合 挖掘 算法 进行 知识 获取 研究 所 要 求 的 规范 和 标准 的 ,主要 具有 以 下 
特征 。 

(1) 不 完整 性 。 不 完整 性 指 的 是 数据 记录 中 可 能 会 出 现 有 些 数 据 属性 的 值 丢失 或 不 
确定 的 情况 ,还 有 可 能 缺失 必需 的 数据 。 这 是 由 于 系统 设计 时 存在 的 缺陷 或 者 使 用 过 程 
中 一 些 人 为 因素 所 造成 的 ,如 有 些 数据 缺失 只 是 因为 输入 时 认为 是 不 重要 的 ,相关 数据 没 
有 记录 可 能 是 由 于 理解 错误 ,或 者 因为 设备 故障 ,与 其 他 记录 不 一 致 的 数据 可 能 已 经 删 
除 , 历 史记 录 或 修改 的 数据 可 能 被 忽略 等 。 

(2) 含 噪声 。 含 噪声 指 的 是 数据 具有 不 正确 的 属性 值 ,包含 错 误 或 存在 偏离 期 望 的 
离 群 值 。 产 生 的 原因 很 多 ,如 收集 数据 的 设备 可 能 出 故障 ,人 或 计算 机 的 错误 可 能 在 数据 
输入 时 出 现 ,数据 传输 中 也 可 能 出 现 错误 等 。 不 正确 的 数据 也 可 能 是 由 命名 约定 或 所 用 
的 数据 代码 不 一 致 ,或 输入 字段 (如 时 间 ) 的 格式 不 一 致 而 导致 的 。 实 际 使 用 的 系统 中 ,还 
可 能 存在 大 量 的 模糊 信息 ,有 些 数据 甚至 还 具有 一 定 的 随机 性 。 

(3) 杂乱 性 (不 一 致 性 )。 原 始 数据 是 从 各 个 实际 应 用 系统 中 获取 的 ,由 于 各 应 用 系 
统 的 数据 缺乏 统一 标准 的 定义 ,数据 结构 也 有 较 大 的 差异 ,因此 各 系统 间 的 数据 存在 较 大 
的 不 一 致 性 ,往往 不 能 直接 拿 来 使 用 。 同 时 来 自 不 同 的 应 用 系统 中 的 数据 ,由 于 合并 还 普 
遍 存 在 数据 的 重复 和 信息 的 宛 余 现象 。 
因此 ,存在 不 完整 的 、 含 噪声 的 和 不 一 致 的 数据 是 现实 世界 大 型 的 数据 库 或 数据 仓库 
的 共同 特点 。 一 些 比较 成 熟 的 算法 对 其 处 理 的 数据 集合 一 般 都 有 一 定 的 要 求 , 如 数据 完 
整 性 好 ,数据 的 元 余 性 少 、 属 性 之 间 的 相关 性 小 。 然 而 ,实际 系统 中 的 数据 一 般 都 不 能 直 
接 满足 数据 挖掘 算法 的 要 求 , 因 此 我 们 必须 对 数据 进行 预 处 理 , 以 提高 数据 质量 ,使 其 符 
合 挖掘 算法 的 规范 和 要 求 。 常 见 的 数据 预 处 理 方法 有 数据 清理 ,数据 集成 数据 变换 和 数 
据 归 约 。 图 2-1 给 出 了 数据 预 处 理 的 典型 形式 。 

(1) 数据 清理 (Data Cleaning): 数据 清理 通常 包括 填补 遗漏 的 数据 值 平滑 有 了 噪声 数 
据 、 识 别 或 除去 异常 值 以 及 解决 不 一 致 问题 。 

(2) 数据 集成 (Data Integration) : 就 是 将 来 自 多 个 数据 源 的 数据 合并 到 一 起 ,形成 
一 致 的 数据 存储 ,如 将 不 同 数据 库 中 的 数据 集成 到 一 个 数据 仓库 中 存储 。 有 时 数据 集成 
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图 2-1 数据 预 处 理 的 方法 


之 后 还 需要 进行 数据 清理 以 便 消除 可 能 存在 的 数据 元 余 。 

(3) 数据 变换 (Data Transformation); 主要 是 将 数据 转换 成 适合 于 挖掘 的 形式 ,如 将 属 
性 数据 按 比例 缩放 ,使 之 落 入 一 个 比较 小 的 特定 区 间 ,这 一 点 对 那些 基于 距离 的 挖掘 算法 万 
为 重要 。 数 据 变换 的 具体 方法 包括 平滑 处 理 、 聚 集 处 理 ,数据 泛 化 处 理 、 规 格 化 、 属 性 构造 。 

(4) 数据 归 约 (Data Reduction): 在 不 影响 控 掘 结果 的 前 提 下 ,通过 数值 聚集 .删除 
元 余 特 性 的 办 法 压缩 数据 ,提高 挖掘 模式 的 质量 ,降低 时 间 复 杂 度 。 

以 上 的 数据 预 处 理 并 不 互 斥 ,例如 , 宛 余 数据 的 删除 既是 数据 清理 ,也 是 数据 归 约 。 
数据 预 处 理 流程 如 图 2-2 所 示 。 
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I 二 次 预 处 理 


图 2-2 数据 预 处 理 流程 
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2.2 数据 清理 
2.2.1 填充 缺失 值 


很 多 的 数据 都 有 缺失 值 。 例 如 ,银行 房屋 贷款 信用 风险 评估 中 的 客户 数据 ,其 中 
的 一 些 属性 可 能 没有 记录 值 ,如 客户 的 家 庭 月 总 收入 。 填 充 丢失 的 值 , 可 以 用 下 面 
的 方法 : 

C) 忽略 元 组 : 当 缺 少 类 标号 时 通常 这 样 做 (假定 挖掘 任务 涉及 分 类 ) 。 除 非 元 组 有 
多 个 属性 缺少 值 ,否则 该 方法 就 不 是 很 有 效 , 当 每 个 属性 缺少 值 的 百分比 变化 很 大 时 , 它 
的 性 能 就 特别 差 。 

(2) 人 工 填写 缺失 值 : 此 方法 很 费时 ,特别 是 当 数 据 集 很 大 、 缺 少 很 多 值 时 ,该 方法 
可 能 不 具有 实际 的 可 操作 性 。 

(3) 使 用 一 个 全 局 常量 填充 缺失 值 : 将 缺失 的 属性 值 用 同一 个 常数 (如 Unknown) ë 
换 。 但 这 种 方法 因为 大 量 地 采用 同一 个 属性 值 可 能 会 误导 挖掘 程序 得 出 有 偏差 甚至 错误 
的 结论 ,因此 要 小 心 使 用 。 

(4) 用 属性 的 均值 填充 缺失 值 : 例如 ,已 知 重庆 市 某 银行 的 贷款 客户 的 平均 家 庭 月 
总 收入 为 9000 元 , 则 使 用 该 值 替 换 客户 收入 中 的 缺失 值 。 

(5) 用 同类 样本 的 属性 均值 填充 缺失 值 : 例如 ,将 银行 客户 按 信用 度 分 类 ,就 可 以 用 
信用 度 相 同 的 贷款 客户 的 家 庭 月 总 收入 替换 家 庭 月 总 收入 中 的 缺失 值 。 

(6) 使 用 最 可 能 的 值 填 充 缺 失 值 : 可 以 用 回归 、 贝 叶 斯 形式 化 的 基于 推理 的 工具 或 
决策 树 归纳 确定 。 例 如 ,利用 数据 集中 其 他 客户 的 属性 ,可 以 构造 一 棵 决策 树 来 预测 家 庭 
月 总 收入 的 缺失 值 。 

需要 注意 的 是 ,在 某 些 情况 下 缺失 值 并 不 意味 数据 有 错误 。 例 如 ,在 申请 信用 卡 时 ， 
可 能 要 求 申请 人 提供 驾驶 执照 号 ,而 没有 驾驶 执照 的 申请 者 自然 使 该 字段 为 空 。 表 格 应 
当 人 允许 填 表 人 使 用 诸如 “无 效 " 等 值 ,软件 程序 也 可 以 用 来 发 现 其 他 空 值 ,如 “不 知道 ”“?” 
或 “无 ”"。 理 想 情况 下 ,每 个 属性 都 应 当 有 一 个 或 多 个 关于 空 值 条 件 的 规则 。 这 些 规则 可 
以 说 明 是 否 允许 空 值 ,并 且说 明 这 样 的 空 值 应 当 如 何 处 理 或 转换 。 字 段 也 可 能 故意 留 下 
空白 ,如 果 它 们 在 商务 处 理 的 最 后 一 步 未 提供 值 。 因 此 ,尽管 我 们 可 以 在 得 到 数据 后 尽 最 
大 努力 进行 数据 清理 ,但 数据 库 和 数据 输入 的 良好 设计 将 有 助 于 在 第 一 现场 最 小 化 缺失 
值 或 错误 的 数量 。 


2.2.2 光滑 噪声 数据 


噪声 (Noise) 是 指 被 测量 变量 的 随机 误差 或 方差 。 给 定 一 个 数值 属性 ,如 Price, 我 们 
怎样 才能 “光滑 ”数据 去 掉 噪 声 ? 常见 的 数据 光滑 技术 包含 如 下 几 种 。 

(1) 分 箱 (Binning) : 分 箱 方法 通过 考察 数据 的 “近邻 ”( 即 周 围 的 值 ) 来 光滑 有 序数 据 
的 值 , 有 序 值 分 布 到 一 些 “ 桶 ?或 箱 中 。 由 于 分 箱 方法 考察 近邻 的 值 ,因此 可 用 来 进行 局 部 
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光滑 。 一 般 来 说 ,宽度 越 大 光滑 效果 越 大 , 箱 也 可 以 是 等 宽 的 , 即 每 个 箱 值 的 区 间 范 围 是 
个 常量 。 

【 例 2. 1】 某 课程 成 绩 score 排序 后 的 数据 为 : 61.66.68.73.77.78.85.88.91, 

将 上 述 排序 的 数据 划分 为 等 深 (深度 为 3) 的 箱 ( 桶 ) ,如 下 所 示 : 

箱 1: 61, 66, 68 

箱 2: 73, 77, 78 

箱 3: 85, 88, 91 

采用 分 箱 平滑 技术 后 ,用 平均 值 平滑 得 到 如 下 结果 : 

箱 1: 65, 65, 65 

箱 2: 76, 76, 76 

箱 3: 88, 88, 88 

用 边界 值 平滑 得 到 如 下 结果 : 

箱 1: 61, 68, 68 

箱 2: 73, 78, 78 

箱 3: 85, 85, 91 

(2) 回归 : 可 以 用 一 个 函数 (如 回归 函数 ) 进 行 数据 拟 合 来 达到 光滑 数据 的 目的 。 线 
性 回归 涉及 找 出 拟 合 两 个 属性 (或 变量 ) 的 “最 佳 ? 线 , 使 得 一 个 属性 可 以 用 来 预测 另 一 个 
属性 。 多 元 线性 回归 是 线性 回归 的 扩展 ,其 中 涉及 的 属性 多 于 两 个 ,并 且 数 据 拟 合 到 一 个 
多 维 曲 面 。 

G) 聚 类 : 可 以 通过 聚 类 检测 离 群 点 ,将 类 似 的 值 组 织 成 “ 群 ? 或 “位 ”。 直 观 地 , 落 在 
簇 集合 之 外 的 值 视 为 离 群 点 。 许 多 数据 光滑 的 方法 也 是 涉及 离散 化 的 数据 归 约 方法 。 例 
如 ,上 面 介绍 的 分 箱 技术 减少 了 每 个 属性 的 不 同 值 数 量 。 对 于 基于 他 辑 的 数据 挖掘 方法 
(如 决策 树 归纳 ) ,反复 地 对 排序 后 的 数据 进行 比较 ,这 充当 了 一 种 形式 的 数据 归 约 。 概 念 
分 层 是 一 种 数据 离散 化 形式 ,也 可 以 用 于 数据 光滑 。 





2.2.3 数据 清理 过 程 


数据 清理 过 程 包含 如 下 两 个 步骤。 

(1) 偏差 检测 (Discrepancy Detection) 。 发 现 噪声 、 离 群 点 和 需要 考察 的 不 寻常 的 值 
时 ,可 以 使 用 已 有 的 关于 数据 性 质 的 知识 。 这 种 知识 或 “关于 数据 的 数据 ”" 称 为 元 数据 。 
考察 每 个 属性 的 定义 域 和 数据 类 型 .每 个 属性 可 接受 的 值 \ 值 的 长 度 范围 ;考察 是 否 所 有 
的 值 都 落 在 期 望 的 值 域内 、 属 性 之 间 是 否 存在 已 知 的 依赖 ;把 握 数据 趋势 和 识别 异常 ,如 
远离 给 定 属性 均值 超过 两 个 标准 差 的 值 可 能 标记 为 潜在 的 离 群 点 。 另 一 种 错误 是 源 编码 
使 用 的 不 一 致 问题 和 数据 表示 的 不 一 致 问题 (如 日 期 *2009/09/25” 和 “25/09/2009”)。 而 
字段 过 载 (Field Overloading) 是 另 一 类 错误 源 。 考 察 数 据 还 要 遵循 唯一 性 规则 、 连 续 性 
规则 和 空 值 规则 。 可 以 使 用 其 他 外 部 材料 人 工地 加 以 更 正 某 些 数据 不 一 致 。 如 数据 输入 
时 的 错误 可 以 使 用 纸 上 的 记录 加 以 更 正 ,但 大 部 分 错误 需要 数据 变换 。 

(2) 偏差 纠正 (Discrepancy Correction) 。 也 就 是 说 ,一 旦 发 现 偏差 ,通常 我 们 需要 
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定义 并 使 用 一 系列 变换 来 纠正 它们 。 商 业 工 具 可 以 支持 数据 变换 步骤 ,但 这 些 工 具 
只 支持 有 限 的 变换 ,因此 ,我 们 常常 可 能 选择 为 数据 清理 过 程 的 这 一 步 编 写 定 制 的 
程序 。 

偏差 检测 和 偏差 纠正 这 两 步 过 程 迭 代 执 行 。 随 着 我 们 对 数据 的 了 解 的 增加 ,重要 的 
是 要 不 断 更 新 元 数据 以 反映 这 种 知识 ,这 有 助 于 加 快 对 相同 数据 存储 的 未 来 版 本 的 数据 
清理 速度 。 


2.3 数据 集成 和 数据 变换 
2.3.1 数据 集成 


数据 分 析 任务 大 多 涉及 数据 集成 。 数 据 集成 合并 多 个 数据 源 中 的 数据 ,存放 在 一 个 
一 致 的 数据 存储 (如 数据 仓库 ) 中 。 这 些 数据 源 可 能 包括 多 个 数据 库 、 数 据 立方 体 或 一 般 
文件 ,在 数据 集成 时 ,有 许多 问题 需要 考虑 。 

(1) 模式 集成 和 对 象 匹配 问题 。 来 自 多 个 信息 源 的 现实 世界 的 等 价 实体 的 匹配 涉及 
实体 识别 问题 ,例如 ,如 何 判断 一 个 数据 库 中 的 Customer ID 与 另 一 个 数据 库 中 的 Cust 
Number 是 否 是 相同 的 属性 。 每 个 属性 的 元 数据 可 以 用 来 帮助 避免 模式 集成 的 错误 ,元 
数据 还 可 以 用 来 帮助 变换 数据 。 

D 元 余 问 题 。 一 个 属性 如 果 能 由 另 一 个 或 男 一 组 属性 “导出 ”, 那 么 该 属性 是 宛 余 
的 ,另外 ,属性 的 不 一 致 也 可 能 导致 结果 数据 集中 的 元 余 。 有 些 宛 余 可 以 被 相关 分 析 方法 
检测 到 。 假 设 给 定 两 个 属性 ,通过 这 种 相关 分 析 方 法 ,我 们 可 以 根据 可 用 的 数据 来 度量 一 
个 属性 能 在 多 大 程度 上 蕴含 男 一 个 属性 。 对 于 数值 属性 ,通过 计算 属性 A 和 B 之 间 的 相 
关系 数 来 估计 这 两 个 属性 的 相关 度 ra.8, 即 


N N = 
Dai—A)b—B) Jab) — NAB 
i=l i=l 











(2-1) 


TA,B 
Nosos Noss 


其 中 ,NN 是 元 组 个 数 ; a; 和 记分 别 是 元 组 ; 中 A 和 B 的 值 ;A MB 分 别 是 A 和 B 的 均值 ， 
oa 和 ca 分 别 是 A MB 的 标准 差 ,而 Dab: 是 AB 又 积 的 和 ( 即 对 于 每 个 元 组 ,4 的 值 乘 
以 该 元 组 B 的 值 )。 注 意 ,一 1<ra.s 志 十 1。 如 果 ra KF OW AMB 是 正 相关 的 ,该 什 
越 大 ,相关 性 就 越 强 ( 即 每 个 属性 蕴涵 另 一 个 的 可 能 性 越 大 )。 因 此 ,一 个 较 高 的 ra.s 值 表 
明 A( 或 B) 可 以 作为 元 余 而 被 去 掉 。 如 果 结 果 值 等 于 0, 则 A 和 B 是 独立 的 ,不 存在 相 
关 , 如 果 结 果 值 小 于 0, 则 A 和 B 是 负 相 关 的 ,一 个 值 随 另 一 个 的 减少 而 增加 。 这 意味 每 
一 个 属性 都 阻止 另 一 个 出 现 。 

注意 ,相关 并 不 意味 因果 关系 。 也 就 是 说 ,如 果 A 和 B 是 相关 的 ,这 并 不 意味 A S 
HB 或 B 导致 4&。 对 于 分 类 (离散 ) 数 据 , 两 个 属性 A MB 之 间 的 相关 联系 可 以 通过 X 
( 卡 方 ) 检 验 发 现 。 

设 A 有 c ARR a saas BAr 个 不 同 值 b51,5。，,…,b,。 A 和 B 描述 的 数据 元 
组 可 以 用 一 个 相依 表 显示 ,其 中 A 的 < 个 值 构成 列 ,B 的 r 个 值 构成 行 。 令 (AB) 表示 
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属性 A 取 值 a;、 属 性 B 取 值 b; 的 事件 , 即 (A=a;,B=b;)。 每 个 可 能 的 (A;,B;) 联合 事件 
都 在 表 中 有 自己 的 单元 (或 位 置 ) 。 x 值 (又 称 皮尔 逊 x 统计 量 ) 可 以 用 下 式 计算 。 
= pp — (2-2) 


i=1 j=l 全 

其 中 , o; 是 联合 事件 (A;,B;) 的 观测 频 度 ( 即 实际 计数 ) ;而 ef 是 (Ai,B;) 的 期 望 频 度 ,可 
以 用 下 式 计算 。 

c(A = ai) Xc(B = b;) 

N 

其 中 ,NN 是 数据 元 组 的 个 数 ;c (A = a) 是 A 具有 值 a; 的 元 组 个 数 ;而 c (B = b) ë B R 
有 值 方 的 元 组 个 数 。 式 (2-2) 中 的 和 在 所 有 r X < 个 单元 上 计算 。 对 Xx 值 贡献 最 大 的 单 
元 是 其 实际 计数 与 期 望 计 数 很 不 相同 的 单元 。 

X 统计 检验 假设 A 和 B 是 独立 的 。 检 验 基于 显著 水 平 ,具有 (7 一 1)X(c 一 1) 的 自由 
度 。 如 果 可 以 拒绝 该 假设 , 则 说 A 和 B 是 统计 相关 的 或 关联 的 。 

除了 检测 属性 间 的 宛 余 外 ,还 应 当 在 元 组 级 检测 重复 。 去 规范 化 表 的 使 用 也 可 能 导 
致 数据 元 余 。 不 一 臻 通常 出 现在 各 种 不 同 的 副本 之 间 , 由 于 不 正确 的 数据 输入 ,或 者 由 于 
更 新 了 数据 的 部 分 出 现 ,但 未 更 新 所 有 的 出 现 。 

(3) 数据 值 冲突 的 检测 与 处 理 。 例 如 ,对 于 现实 世界 的 同一 实体 ,来 自 不 同 数据 源 的 
属性 值 可 能 不 同 。 这 可 能 是 因为 表示 、 比 例 或 编码 不 同 。 例 如 ,重量 属性 可 能 在 一 个 系统 
中 以 公制 单位 存放 ,而 在 另 一 个 系统 中 以 英制 单位 存放 。 对 于 连锁 旅馆 ,不 同城 市 的 房价 
不 仅 可 能 涉及 不 同 的 货币 ,而 且 可 能 涉及 不 同 的 服务 (如 免费 早餐 ) 和 税 。 

在 一 个 系统 中 记录 的 属性 的 抽象 层 可 能 比 另 一 个 系统 中 “相同 的 ”属性 低 。 数 据 集成 
中 将 一 个 数据 库 的 属性 与 男 一 个 匹配 时 ,要 考虑 数据 的 结构 用 来 保证 原 系 统 中 的 属性 函 
数 依赖 和 参照 约束 与 目标 系统 中 的 匹配 。 数 据 语义 的 异 构 和 结构 给 数据 集成 带 来 了 巨大 
挑战 ,由 多 个 数据 源 小 心地 集成 数据 能 够 帮助 降低 和 避免 结果 数据 集中 的 元 余 和 不 一 致 ， 
从 而 提高 其 后 挖掘 过 程 的 准确 率 和 速度 。 


(2-3) 


ej = 


2.3.2 数据 变换 


数据 变换 的 目的 是 将 数据 转换 或 统一 成 适合 于 挖掘 的 形式 ,数据 变换 主要 涉及 以 下 

内 容 : 

(1) 光滑 : 即 去 掉 数 据 中 的 噪声 ,这 种 技术 包括 分 箱 . 回 归 和 聚 类 等 。 

(2) 聚集 : 对 数据 进行 汇总 或 聚集 。 例 如 ,可 以 聚集 日 销售 数据 ,计算 月 和 年 销售 
量 。 通 常 ,这 一 步 用 来 为 多 粒度 数据 分 析 构造 数据 立方 体 。 

(3) 数据 泛 化 : 使 用 概念 分 层 , 用 高 层 概念 替换 低层 或 “原始 "数据 。 例 如 ,对 于 年 龄 
这 种 数值 属性 ,原始 数据 ?可 能 包含 20、30、40、50、60、70 等 ,可 以 将 上 述 数 据 映射 到 较 高 
层 的 概念 ,如 青年 .中 年 和 老年 。 

(4) 规范 化 : 将 属性 数据 按 比例 缩放 ,使 之 落 入 一 个 小 的 特定 区 间 , 如 一 1.0~1.0 或 
0.0~1.0。 规 范 化 可 以 消除 数值 型 属性 因 大 小 不 一 而 造成 的 控 气 结果 偏差 。 对 于 分 类 算 
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法 ,如 涉及 神经 网 络 的 算法 或 诸如 最 临近 分 类 和 聚 类 的 距离 量度 分 类 算法 ,规范 化 特别 有 
用 。 如 果 使 用 神经 网 络 后 向 传播 (Back Propagation，BP) 算 法 进行 分 类 挖掘 ,训练 样本 的 
规范 化 能 够 提高 学 习 的 速度 。 有 许多 数据 规范 化 的 方法 ,常用 的 有 三 种 : 最 小 -最 大 规范 
ME z-score 规范 化 和 按 小 数 定 标 规范 。 

(1) 最 小 -最 大 规范 化 : 假定 ma 和 MA 分 别 为 属性 A 的 最 小 值 和 最 大 值 。 最 小 -最 大 
规范 化 通过 式 (2-4) 计 算 。 


v—m 
u! 一 一 (new_MA — new_ma) + new_ma (2-4) 
Ma— ma 


将 A 的 值 v 映射 到 区 间 [new_za,new_MaA] tB vs 
最 小 -最 大 规范 化 对 原始 数据 进行 线性 变换 ,保持 原始 数据 值 之 间 的 联系 。 如 果 今 
后 的 输入 落 在 A 的 原始 数据 值 域 之 外 ,该 方法 将 面临 越界 ”错误 。 
【 例 2.2】 假定 某 属性 的 最 小 与 最 大 值 分 别 为 8000 元 和 14 000 元 。 要 将 其 映射 到 
区 间 [0.0,1.0]。 按 照 最 小 -最 大 规范 化 方法 对 属性 值 进行 缩放 , 则 属性 值 12 600 元 将 
12 600 一 8000 


14000 二 8000X (1.0 0.0) = 0.767 


(2) z-score 规范 化 ( 零 均 值 规范 化 ): 把 属性 A 的 值 v 基于 A 的 均值 和 标准 差 规范 
化 为 wv ,由 式 (2-5) 计 算 。 





v = (v—A)/oa (2-5) 
其 中 ,A 和 va 分 别 为 属性 A 的 均值 和 标准 差 。 当 属性 A 的 实际 最 大 和 最 小 值 未 知 , 或 离 
群 点 左右 了 最 大 -最 小 规范 化 时 ,该 方法 是 有 用 的 。 
【 例 2.3】 假定 属性 平均 家 庭 月 总 收入 的 均值 和 标准 差分 别 为 9000 元 和 2400 元 ， 
值 10 600 元 使 用 z-score 规范 化 转换 为 


12 600—9000 _ 
2400 


(3) 小 数 定 标 规范 化 : 通过 移动 属性 A 的 小 数 点 位 置 进行 规范 化 。 小 数 点 的 移动 位 
数 依赖 于 A 的 最 大 绝对 值 。A 的 值 v 规范 化 为 vw”, 由 式 (2-6) 计 算 。 

v = v/ 10 (2-6) 
其 中 ,j 是 使 得 Max( |v |) <1 的 最 小 整数 。 

【 例 2.4】 假定 A 的 取 值 是 一 975~923。A 的 最 大 绝对 值 为 975。 使 用 小 数 定 标 规 
范 化 ,用 1000( 即 j= 二 3) 除 每 个 值 ,这 样 ,一 975 规范 化 为 一 0. 975, 923 则 被 规范 化 为 
0. 923。 

规范 化 将 原来 的 数据 改变 ,特别 是 上 面 的 后 两 种 方法 。 有 必要 保留 规范 化 参数 (如 均 
值 和 标准 差 ,如 果 使 用 z-score 规范 化 ) ,以 便 将 来 的 数据 可 以 用 一 致 的 方式 规范 化 。 

(4) 属性 构造 (或 特征 构造 ): 由 已 有 的 属性 构造 和 添加 新 的 属性 ,以 帮助 挖掘 更 深 
层次 的 模式 知识 ,提高 挖掘 结果 的 准确 性 。 例 如 ,可 根据 属性 Height 和 Width 添加 属性 
Area。 属 性 构造 可 以 减少 使 用 判定 树 算法 分 类 的 分 裂 问题 。 通 过 组 合 属性 ,可 以 帮助 发 
现 所 遗漏 的 属性 间 的 相互 关系 ,而 这 对 于 数据 挖掘 是 十 分 重要 的 。 


1.5 
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2.4 数据 归 约 


对 海量 数据 进行 复杂 的 数据 分 析 和 挖掘 将 需要 很 长 时 间 ,使 得 这 种 分 析 不 具有 可 操 
作 性 。 数 据 归 约 技术 可 以 用 来 得 到 数据 集 的 归 约 表示 , 它 比 原 数据 小 得 多 ,但 仍 接近 保持 
原 数 据 的 完整 性 。 这 样 , 对 归 约 后 的 数据 集 挖 掘 将 更 有 效 , 并 产生 相同 (或 几乎 相同 ) 的 分 
析 结 果 。 用 于 数据 归 约 的 计算 时 间 不 应 当 超过 或 "抵消 ?对 归 约 数据 挖掘 节省 的 时 间 。 常 
见 的 数据 归 约 的 方法 包括 数据 立方 体 聚 集 ` 维 归 约 、 数 据 压缩 .数值 归 约 以 及 数据 离散 化 
与 概念 分 层 等 ,下 面 逐一 进行 介绍 。 


2.4.1 数据 立方 体 聚集 


数据 立方 体 聚集 主要 是 用 于 构造 数据 立方 体 ,数据 立方 体 存 储 多 维 聚集 信息 。 每 个 
单元 存放 一 个 聚集 值 ,对 应 于 多 维 空间 的 一 个 数据 点 ,每 个 属性 可 能 存在 概念 分 层 , 允 许 
在 多 个 抽象 层 进行 数据 分 析 。 数 据 立方 体 提供 对 预计 算 的 汇总 数据 进行 快速 访问 ,因此 ， 
适合 联机 数据 分 析 处 理 和 数据 挖掘 。 

在 最 低 抽象 层 创建 的 立方 体 称 为 基本 方 体 (Base Cuboid) 。 基 本 方 体 应 当 对 应 于 感 
兴趣 的 个 体 实体 。 即 最 低层 应 当 是 对 分 析 可 用 的 或 有 用 的 。 最 高 层 抽象 的 立方 体 称 为 顶 
点 方 体 (Apex Cuboid) 。 对 不 同 抽象 层 创建 的 数据 立方 体 称 为 方 体 (Cuboid) ,因此 数据 
立方 体 可 以 看 作 方 体 的 格 (Lattice of Cuboids) 。 每 个 较 高 层 抽象 将 进一步 减少 结果 数据 
的 规模 。 当 回答 数据 挖掘 查询 时 ,应 当 使 用 与 给 定 任务 相关 的 最 小 可 用 方 体 。 


2.4.2 维 归 约 





用 于 分 析 的 数据 集 可 能 包含 数 以 百 计 的 属性 ,其 中 大 部 分 属性 与 挖掘 任务 不 相关 或 
元 余 。 例 如 分 析 银 行 客户 的 信用 度 时 ,诸如 客户 的 电话 号 码 、 家 庭 住 址 等 属性 就 与 该 数据 
挖掘 任务 不 相关 ,或 者 说 是 元 余 的 。 维 归 约 通过 减少 不 相关 的 属性 (或 维 ) 来 达到 减少 数 
据 集 规模 的 目的 ,通常 使 用 属性 子 集 选 择 方法 来 找 出 最 小 属性 集 , 使 得 数据 类 的 概率 分 布 
尽 可 能 低 , 接 近 原 始 属性 集 的 概率 分 布 。 在 归 约 后 的 属性 集 上 进行 数据 挖掘 ,不 仅 减少 了 
出 现在 发 现 模式 上 的 属性 的 数目 ,而 且 使 得 模式 更 容易 理解 。 属 性 子 集 选 择 的 基本 启发 
式 方法 包括 以 下 几 种 。 

(1) 逐步 向 前 选择 : 该 过 程 由 空 属性 集 作 为 归 约 集 开 始 , 确 定 原 属性 集中 最 好 的 属 
性 ,并 将 它 添加 到 归 约 集中 。 在 其 后 的 每 一 次 迭代 中 ,将 剩 下 的 原 属性 集中 最 好 的 属性 添 
加 到 该 集合 中 。 

(2) 逐步 向 后 删除 : 该 过 程 由 整个 属性 集 开 始 。 在 每 一 步 ,删除 尚 在 属性 集中 且 最 
差 的 属性 。 

(3) 向 前 选择 和 向 后 删除 的 结合 : 可 以 将 逐步 向 前 选择 和 向 后 删除 方法 结合 在 一 
起 ,每 一 步 选择 一 个 最 好 的 属性 ,并 在 剩余 属性 中 删除 一 个 最 差 的 属性 。 
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(4) 决策 树 归纳 : 决策 树 算法 最 初 是 用 于 分 类 的 。 决 策 树 归纳 构造 一 个 类 似 于 流程 
图 的 结构 ,其 中 每 个 内 部 ( 非 树叶 ) 节 点 表示 一 个 属性 的 测试 ,每 个 分 枝 对 应 于 测试 的 一 个 
输出 ;每 个 外 部 (树叶 ) 节 点 表示 一 个 类 预测 。 在 每 个 节点 ,算法 选择 “最 好 ”的 属性 ,将 数 
据 划 分 成 类 。 当 决策 树 归纳 用 于 属性 子 集 选 择 时 ,由 给 定 的 数据 构造 决策 树 。 没 有 在 树 
中 出 现 的 属性 假定 是 不 相关 的 ,出 现在 树 中 的 属性 形成 归 约 后 的 属性 子 集 。 方 法 的 结束 
标准 可 以 不 同 ,该 过 程 可 以 使 用 一 个 量度 阔 值 来 决定 何 时 停止 属性 选择 过 程 。 





2.4.3 数据 压缩 


数据 压缩 就 是 使 用 数据 编码 或 变换 以 便 将 原始 数据 集合 压缩 成 一 个 较 小 的 数据 集 
合 。 可 以 不 丢失 任何 信息 地 还 原 数据 的 压缩 称 为 无 损 压 缩 ,构造 原始 数据 的 近似 表示 的 
压缩 称 为 有 损 压 缩 , 一 般 而 言 ,有 损 压 缩 的 压缩 比 要 比 无 损 压 缩 的 压缩 比 高 ,两 种 有 效 的 
有 损 的 数据 压缩 方法 是 小 波 变换 和 主 成 分 分 析 。 


1. 小 波 变换 


离散 小 波 变 换 (Discrete Wavelet Transform,DWT) 是 一 种 线性 信号 处 理 技术 , 当 用 
于 数据 向 量 X 时 ,将 它 变换 成 数值 上 不 同 的 小 波 系数 向 量 X ,两 个 向 量具 有 相同 的 长 度 。 
当 这 种 技术 用 于 数据 压缩 时 ,每 个 元 组 可 看 作 一 个 维 数据 向 量 X = itzan). 用 
来 描述 个 数据 库 属性 在 元 组 上 的 个 测量 值 。 小 波 变换 后 的 数据 可 以 截 短 , 仅 存放 一 
小 部 分 最 强 的 小 波 系数 ,就 能 保留 近似 的 压缩 数据 。 

例如 保留 大 于 用 户 设 定 的 某 个 阔 值 的 所 有 小 波 系数 ,其 他 系数 置 为 0。 这 样 , 结 果 数 
据 表示 非常 稀 玖 ,使 得 如 果 在 小 波 空 间 进行 计算 ,利用 数据 稀 下 特 点 的 操作 计算 得 非常 
快 。 该 技术 也 能 用 于 消除 噪声 ,而 不 会 光滑 掉 数 据 的 主要 特征 ,使 得 它们 也 能 有 效 地 用 于 
数据 清理 。 给 定 一 组 系数 ,使 用 所 用 的 DWT 的 逆 , 可 以 构造 原 数据 的 近似 。 

DWT 与 离散 傅 里 叶 变 换 (Discrete Fourier Transform,DFT) 有 密切 的 关系 ,DFT 是 
一 种 涉及 正弦 和 余弦 的 信号 处 理 技术 。 一 般 来 说 ,DWT 是 一 种 更 好 的 有 损 压 缩 算法 ,也 
就 是 说 ,对 于 给 定 的 数据 向 量 ,如 果 DWT 和 DFT 保留 相同 数目 的 系数 ,DWT 将 提供 原 
数据 更 准确 的 近似 。 因 此 ,对 于 等 价 的 近似 ,DWT E DFT 需要 的 空间 小 ,不 像 DFT, 小 
波 空间 局 部 性 相当 好 ,有 助 于 保留 局 部 细节 。 

应 用 离散 小 波 变 换 的 一 般 过 程 使 用 一 种 分 层 金字 塔 算法 (Pyramid Algorithm), 它 在 
j 次 迭代 将 数据 减 半 , 因 此 计算 速度 很 快 。 可 以 将 矩阵 乘法 用 于 输入 数据 ,以 得 到 小 波 系 
数 ,所 用 的 矩阵 依赖 于 给 定 的 DWT。 甜 阵 必须 是 标准 正 交 的 , 即 列 是 单位 向 量 并 相互 正 
交 , 使 得 矩阵 的 逆 是 它 的 转 置 ,这 种 性 质 允 许 由 光滑 和 光滑 - 差 数据 集 重 构 数 据 。 通 过 将 
和 矩阵 因子 分 解 成 几 个 稀疏 矩阵 ,对 于 长 度 为 n 的 输入 向 量 ,“ 快 速 DWT" 算 法 的 复杂 度 为 
Oln). 

小 波 变换 可 以 用 于 多 维 数据 ,如 数据 立方 体 。 可 以 按 以 下 方法 做 : 首先 将 变换 用 于 
第 一 个 维 , 然 后 第 二 个 ,以 此 类 推 。 计 算 复 杂 性 关于 立方 体 中 单元 的 个 数 是 线性 的 。 对 于 
稀 玻 或 倾斜 数据 和 具有 有 序 属 性 的 数据 ,小 波 变换 给 出 了 很 好 的 结果 。 据 报道 ,小 波 变换 
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的 有 损 压 缩 比 当前 的 商业 标准 JPEG 压缩 效果 好 。 小 波 变换 有 许多 实际 应 用 ,包括 指纹 
图 像 压缩 .计算 机 视觉 .时 间 序列 数据 分 析 和 数据 清理 。 


2， 主 成 分 分 析 


主 成 分 分 析 (Principal Components Analysis,PCA) 又 称 Karhunen-Loeve( sk K-L) 
方法 。 该 方法 搜索 个 最 能 代表 数据 的 维 正 交 向 量 ,其 中 <n, 这 样 原来 的 数据 就 投 
影 到 一 个 小 得 多 的 空间 ,实现 维度 归 约 。PCA 通过 创建 一 个 替换 的 ,更 小 的 变量 集 用 于 
“组 合 ”属性 的 基本 要 素 , 原 数据 可 以 投影 到 该 较 小 的 集合 中 。PCA 常常 揭示 先前 未 曾 察 
觉 的 联系 ,因此 可 以 解释 不 寻常 的 结果 ,基本 过 程 如 下 : 

(1) 对 输入 数据 规范 化 ,使 得 每 个 属性 都 落 入 相同 的 区 间 。 此 步 有 助 于 确保 具有 较 
大 定义 域 的 属性 不 会 支配 具有 较 小 定义 域 的 属性 。 

(2) PCA 计算 & 个 标准 正 交 向 量 , 作 为 规范 化 输入 数据 的 基 。 这 些 是 单位 向 量 ,每 一 
个 方向 都 垂直 于 另 一 个 ,这 些 向 量 称 为 主 成 分 ,输入 数据 是 主 成 分 的 线性 组 合 。 

(3) 对 主 成 分 按 “ 重 要 性 ”或 强度 降序 排列 。 主 成 分 基本 上 充当 数据 的 新 坐标 轴 , 提 
供 关于 方差 的 重要 信息 。 也 就 是 说 ,对 坐标 轴 进行 排序 ,使 得 第 一 个 坐标 轴 显 示 数 据 的 最 
大 方差 ,第 二 个 显示 次 大 方差 ,如 此 下 去 。 

(4) 主 成 分 根据 “重要 性 ”降序 排列 , 则 可 通过 去 掉 较 弱 的 成 分 ( 即 方差 较 小 ) 来 归 约 
数据 的 规模 ,使 用 最 强 的 主 成 分 ,应 当 能 够 重 构 原 数据 很 好 的 近似 。 

PCA 计算 开销 低 , 可 以 用 于 有 序 和 无 序 的 属性 ,并 且 可 以 处 理 稀疏 和 倾斜 数据 ,多 于 
二 维 的 多 维 数据 可 以 通过 将 问题 归 约 为 二 维 问题 来 处 理 。 主 成 分 可 以 用 作 多 元 回归 和 到 
类 分 析 的 输入 ,与 小 波 变 换 相 比 ,PCA 能 够 更 好 地 处 理 稀疏 数据 ,而 小 波 变 换 更 适合 高 维 
数据 。 





2.4.4 数值 归 约 


数值 归 约 技术 指 的 是 选择 蔡 代 的 、 较 小 的 数据 表示 形式 来 减少 数据 量 。 几 种 常用 数 
值 归 约 技术 如 下 。 


1. 回归 和 对 数 线性 模型 


回归 和 对 数 线性 模型 可 以 用 来 近似 给 定 的 数据 ,在 (简单 ) 线 性 回归 中 ,对 数据 建 模 使 
之 拟 合 到 一 条 直线 。 例 如 ,可 以 用 以 下 公式 ,将 随机 变量 y( 称 为 响应 变量 ) 建 模 为 另 一 随 
机 变量 z( 称 为 预测 变量 ) 的 线性 函数 > 一 zez 十 2, 其 中 假定 y 的 方差 是 常量 。 

在 数据 挖掘 中 ,z M y 是 数值 数据 库 属性 。 系 数 w 和 2( 称 为 回归 系数 ) 分 别 为 直线 
的 斜率 和 Y 轴 截 距 。 系 数 可 以 用 最 小 二 乘 方法 求解 , 它 最 小 化 分 离 数 据 的 实际 直线 与 直 
线 估 计 之 间 的 误差 。 多 元 线性 回归 是 (简单 ) 线 性 回归 的 扩充 ,允许 响应 变量 y 建 模 为 两 
个 或 多 个 预测 变量 的 线性 函数 。 

对 数 线性 模型 近似 离散 的 多 维 概率 分 布 。 给 定 n 维 元 组 的 集合 ,可 以 把 每 个 元 组 看 
作 刀 维 空间 的 点 。 可 以 使 用 对 数 线性 模型 基于 维 组 合 的 一 个 较 小 子 集 , 估 计 离 散 化 的 属 
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性 集 的 多 维 空间 中 每 个 点 的 概率 。 这 使 得 高 维 数据 空间 可 以 由 较 低 维 空间 构造 。 因 此 ， 
对 数 线性 模型 也 可 以 用 于 维度 归 约 (由 于 低 维 空间 的 点 通常 比 原来 的 数据 点 占据 较 少 的 
空间 ) 和 数据 光滑 (因为 与 较 高 维 空间 的 估计 相 比 , 较 低 维 空间 的 聚集 佑 计较 少 受 抽样 方 
差 的 影响 ) 。 

回归 和 对 数 线性 模型 都 可 以 用 于 稀疏 数据 ,但 是 它们 的 应 用 可 能 是 受 限 制 的 。 虽 然 
两 种 方法 都 可 以 处 理 倾斜 数据 ,但 是 回归 更 好 。 当 用 于 高 维 数据 时 ,回归 可 能 是 计算 密集 
的 ,而 对 数 线性 模型 表现 出 很 好 的 可 伸缩 性 ,可 以 扩展 到 十 维 左右 。 


2. 直方 图 


直方 图 使 用 分 箱 来 近似 数据 分 布 。 属 性 A 的 直方 图 将 A 的 数据 分 布 划分 为 不 相交 
的 子 集 或 桶 。 如 果 每 个 桶 只 代表 单个 属性 值 /频率 对 , 则 称 为 单 桶 。 通 常 , 桶 表示 给 定 属 
性 的 一 个 连续 区 间 。 确 定 桶 和 属性 值 的 划分 规则 ,包括 如 下 : 

(1) 等 宽 : 在 等 宽 直 方 图 中 ,每 个 桶 的 宽度 区 间 是 一 致 的 。 

D 等 频 (或 等 深 ): 在 等 频 直 方 图 中 创建 桶 ,使 得 每 个 桶 的 频率 粗略 地 估计 为 常数 
〈 即 每 个 桶 大 致 包含 相同 个 数 的 邻近 数据 样本 ) 。 

(3) V 最 优 : 给 定 桶 的 个 数 ,对 于 所 有 可 能 的 直方 图 , 则 V 最 优 直方 图 是 具有 最 小 方 
差 的 直方 图 ,直方 图 的 方差 是 每 个 桶 代表 的 原来 值 的 加 权 和 ,其 中 权 等 于 桶 中 值 的 个 数 。 

(4) MaxDiff: 在 MaxDiff 直方 图 中 ,考虑 每 对 相 邻 值 之 间 的 差 , 桶 的 边界 是 具有 
B 一 1 个 最 大 差 的 对 ,其 中 p 是 用 户 指定 的 桶 数 。 

V 最 优 和 MaxDiff 直方 图 看 来 是 最 准确 和 最 实用 的 ,对 于 近似 稀疏 和 稠密 数据 ,以 及 
高 倾斜 和 均匀 的 数据 ,直方 图 是 高 度 有 效 的 。 多 维 直 方 图 可 以 表现 属性 间 的 依赖 ,这 种 直 
方 图 能 够 有 效 地 近似 多 达 5 个 属性 的 数据 ,但 有 效 性 尚 需 进一步 研究 。 对 于 存放 具有 高 
频率 的 离 群 点 , 单 桶 是 有 用 的 。 

【 例 2.5】 下 面 是 某 市 场 销 售 的 商品 的 价格 清单 (按照 递增 的 顺序 排列 ,括号 中 的 数 
字 表 示 该 价格 的 产品 销售 的 数目 ) : 

2(3),5(5).8(4).10(5).13(10).15(4),18(4).20(7),21(10).23(6),26(8),28(8), 
29(5),30(7) 

图 2-3 使 用 单 桶 显示 了 这 些 数据 的 直方 图 。 为 进一步 压缩 数据 ,通常 让 一 个 桶 代表 
给 定 属性 的 一 个 连续 值 域 。 在 图 2-4 中 每 个 桶 代表 商品 价格 的 一 个 不 同 的 $10 区 间 。 


3. RX 


聚 类 技术 将 数据 元 组 视 为 对 象 。 它 将 对 象 划分 为 群 或 能 ,使 一 个 得 中 的 对 象 相互 相 
似 ”, 而 与 其 他 簇 中 的 对 象 相 异 ”。 通 常 ,相似 性 基于 距离 函数 ,用 对 象 在 空间 中 的 “接近 ” 
程度 定义 。 簇 的 “质量 ”可 以 用 直径 表示 ,直径 是 簇 中 任意 两 个 对 象 的 最 大 距离 。 质 心 距 
离 是 簇 质 量 的 男 一 种 量度 ,定义 为 由 簇 质心 (表示 “平均 对 象 ”或 入 空间 中 的 平均 点 ) 到 每 
个 能 对 象 的 平均 距离 。 

在 数据 归 约 中 ,用 数据 的 复 蔡 换 实际 数据 ,该 技术 的 有 效 性 依赖 于 数据 的 性 质 。 如 果 
数据 能 够 组 织 成 不 同 的 能 ,该 技术 将 有 效 得 多 。 在 数据 库 系统 中 ,多 维 索引 树 主要 用 于 对 
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出 现 次 数 
SN 
= 


i | | | 
2 


123456789101112131415161718192021222324252627282930 
价格 


图 2-3 使 用 单 桶 的 商品 价格 直方 图 









































出 现 次 数 











0-10 11~20 21-30 
价格 


图 2-4 商品 价格 的 等 宽 直方 图 


数据 的 快速 访问 , 它 也 能 用 于 分 层 数据 的 归 约 ,提供 数据 的 多 维 聚 类 ,这 可 以 用 于 提供 查 
询 的 近似 回答 。 对 于 给 定 的 数据 对 象 集 , 索 引 树 递归 地 划分 多 维 空间 ,其 树 根 节点 代表 整 
个 空间 。 通 常 ,这 种 树 是 平衡 的 ,由 内 部 节点 和 树叶 节点 组 成 。 每 个 父 节点 包含 关键 字 和 
指向 子女 节点 的 指针 ,子女 节点 一 起 表示 父 节点 代表 的 空间 。 每 个 树叶 节点 包含 指向 它 
所 代表 的 数据 元 组 的 指针 (或 实际 元 组 ) 。 

这 样 ,索引 树 就 可 以 在 不 同 的 分 辩 率 或 抽象 层 存放 聚集 和 细节 数据 。 它 提供 了 数据 
集 的 分 层 聚 类 ,其 中 每 个 驴 都 有 一 个 标记 ,存放 该 马 包 含 的 数据 。 如 果 我 们 把 父 节 点 的 每 
个 子女 看 作 一 个 桶 , 则 索引 树 可 以 看 作 一 个 分 层 的 直方 图 。 类 似 地 ,每 个 桶 进一步 分 成 更 
小 的 桶 ,允许 在 更 细 的 层次 聚集 数据 。 作 为 一 种 数据 归 约 形式 使 用 多 维 索引 树 依赖 于 每 
个 维 上 属性 值 的 次 序 。 二 维 或 多 维 索引 树 包 括 R 树 ` 四 又 树 和 创 门 的 变形 。 它 们 都 非常 
适合 处 理 稀疏 数据 和 倾斜 数据 。 























[TO 二 


抽样 可 以 作为 一 种 数据 归 约 技术 使 用 ,因为 它 允许 用 数据 小 得 多 的 随机 样本 ( 子 集 ) 
表示 大 型 数据 集 。 最 常用 的 抽样 方法 有 4 种 : (假定 大 型 数据 集 D 包含 N 个 元 组 ) 

(1) s 个 样本 无 放 回 简单 随机 抽样 (SRSWOR)。 

(2) s 个 样本 有 放 回 简单 随机 抽样 (SRSWR)。 

(3) 聚 类 抽样 : 如 果 D 中 的 元 组 分 组 放 和 人 M 个 互 不 相交 的 “ 簇 ”, 则 可 以 得 到 s 个 簇 
的 简单 随机 抽样 (SRS) ,其 中 s<M. 例如 ,数据 库 中 的 元 组 通常 一 次 检索 一 页 ,这 样 每 页 
就 可 以 视 为 一 个 篮 。 也 可 以 利用 其 他 携带 更 丰富 语义 信息 的 聚 类 标准 。 

(4) 分 层 抽样 : 如 果 D 划分 成 互 不 相交 的 部 分 , 称 作 层 , 则 通过 对 每 一 层 的 SRS 就 
可 以 得 到 D 的 分 层 样 本 。 特 别 是 当 数 据 倾斜 时 ,这 可 以 帮助 确保 样本 的 代表 性 。 

采用 抽样 进行 数据 归 约 的 优点 是 ,得 到 样本 的 花费 正比 于 样本 集 的 大 小 ,而 不 是 数 
据 集 的 大 小 N。 因 此 ,抽样 的 复杂 度 子 线性 (sublinear) 于 数据 的 大 小 。 其 他 数据 归 约 技 
术 至 少 需要 完全 扫描 D。 对 于 固定 的 样本 大 小 ,抽样 的 复杂 度 仅 随 数据 的 维 数 n 线性 地 
增加 ;而 其 他 技术 ,如 使 用 直方 图 ,复杂 度 随 指数 增长 。 

用 于 数据 归 约 时 ,抽样 最 常用 来 估计 聚集 查询 的 回答 。 在 指定 的 误差 范围 内 ,可 以 确 
定 ( 使 用 中 心 极 限定 理 ) 估 计 一 个 给 定 的 函数 所 需 的 样本 大 小 。 样 本 的 大 小 s 相对 于 N 
可 能 非常 小 。 对 于 归 约 数据 集 的 逐步 求 精 , 只 需要 简单 地 增加 样本 大 小 即 可 。 


2.4.5 数据 离散 化 与 概念 分 层 


通过 将 属性 值 域 划分 为 区 间 ,数据 离散 化 技术 可 以 用 来 减少 给 定 连续 属性 值 的 个 数 。 
区 间 的 标记 可 以 替代 实际 的 数据 值 。 用 少数 区 间 标 记 替 换 连 续 属 性 的 数值 ,从 而 减少 和 
简化 了 原来 的 数据 。 这 导致 挖掘 结果 的 简洁 .易于 使 用 的 ,知识 层面 的 表示 。 

对 于 给 定 的 数值 属性 ,概念 分 层 定义 了 该 属性 的 一 个 离散 化 。 通 过 收集 较 高 层 的 概 
念 (如 青年 .中 年 或 老年 ) 并 用 它们 替换 较 低 层 的 概念 (如 年 龄 的 数值 ), 概 念 分 层 可 以 用 来 
归 约 数据 。 通 过 这 种 数据 泛 化 ,尽管 细节 丢失 了 ,但 是 泛 化 后 的 数据 更 有 意义 ,更 容易 
解释 。 

这 有 助 于 通常 需要 多 种 挖掘 任务 的 数据 挖掘 结果 的 一 致 表示 。 此 外 ,与 对 大 型 未 泛 
化 的 数据 集 挖掘 相 比 , 对 归 约 的 数据 进行 挖掘 所 需 的 I/O 操作 更 少 , 并 且 更 有 效 。 正 因 
为 如 此 ,离散 化 技术 和 概念 分 层 作为 预 处 理 步骤 ,在 数据 挖掘 之 前 而 不 是 在 挖掘 过 程 进 
行 的 。 

1. 数值 数据 的 离散 化 和 概念 分 层 产 生 


数值 属性 的 概念 分 层 可 以 根据 数据 离散 化 自动 构造 。 通 常 ,每 种 方法 都 假定 待 离散 
化 的 值 已 经 按 递增 排序 。 
1) 分 箱 
分 箱 是 一 种 基于 箱 的 指定 个 数 自 顶 向 下 的 分 裂 技术 。 通 过 使 用 等 宽 或 等 频 分 箱 , 然 
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后 用 箱 均 值 或 中 位 数 蔡 换 箱 中 的 每 个 值 ,可 以 将 属性 值 离散 化 ,就 像 分 别 用 箱 的 均值 或 箱 
的 中 位 数 光滑 一 样 。 这 些 技 术 可 以 递归 地 作用 于 结果 划分 ,产生 概念 分 层 。 分 箱 并 不 使 
用 类 信息 ,因此 是 一 种 非 监督 的 离散 化 技术 。 它 对 用 户 指定 的 箱 个 数 很 敏感 ,也 容易 受 离 
群 点 的 影响 。 
2) 直方 图 分 析 
像 分 箱 一 样 ,直方 图 分 析 也 是 一 种 非 监 督 离散 化 技术 ,因为 它 也 不 使 用 类 信息 。 使 用 
等 频 直方 图 ,理想 地 分 割 值 使 得 每 个 划分 包括 相同 个 数 的 数据 元 组 。 直 方 图 分 析 算 法 可 
以 递归 地 用 于 每 个 划分 ,自动 地 产生 多 级 概念 分 层 ,直到 达到 预先 设 定 的 概念 层 数 过 程 终 
止 。 也 可 以 对 每 一 层 使 用 最 小 区 间 长 度 来 控制 递归 过 程 。 最 小 区 间 长 度 设 定 每 层 每 个 划 
分 的 最 小 宽度 ,或 每 层 每 个 划分 中 值 的 最 少数 目 。 直 方 图 也 可 以 根据 数据 分 布 的 聚 类 分 
析 进 行 划分 。 图 2-5 给 出 了 一 个 等 宽 直 方 图 ,显示 某 给 定数 据 集 的 数值 分 布 。 例 如 ,大 部 
分 数据 分 布 在 0~2170。 例 如 ,在 等 宽 直方 图 中 ,将 值 划 分 成 相等 的 或 区 间 ( 如 (0,2170)， 
(2170,4340),(4340,6510) ,(6510,8680) ) 。 
260 
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图 2-5 等 宽 直方 图 





3) 基于 粹 的 离散 化 

炉 (Entropy) 是 最 常用 的 离散 化 量度 之 一 。 基 于 粹 的 离散 化 是 一 种 监督 的 、 自 顶 向 下 
的 分 裂 技 术 。 它 在 计算 和 确定 分 裂 点 (划分 属性 区 间 的 数据 值 ) 时 利用 类 分 布 信息 。 对 离 
散 数值 属性 A ,选择 A 的 具有 最 小 焙 的 值 作 为 分 裂 点 ,并 递归 地 划分 结果 区 间 , 得 到 分 层 
离散 化 。 这 种 离散 化 形成 A 的 概念 分 层 。 

D 基于 分 析 的 区 间 合 并 

采用 自 底 向 上 的 策略 ,递归 地 找 出 最 佳 邻 近 区 间 , 然 后 合并 它们 ,形成 较 大 的 区 间 。 
这 种 方法 是 监督 的 , 它 使 用 类 信息 。 其 基本 思想 是 ,对 于 精确 的 离散 化 ,相对 类 频率 在 一 
个 区 间 内 应 当 相当 一 致 。 因 此 ,如 果 两 个 邻近 的 区 间 具 有 非常 类 似 的 类 分 布 , 则 这 两 个 区 
间 可 以 合并 ;否则 ,它们 应 当 保 持 分 开 。 

初始 ,将 数值 属性 A 的 每 个 不 同 值 看 作 一 个 区 间 。 对 每 对 相 邻 区 间 进 行 解 检 验 。 具 
AB Z 值 的 相 邻 区 间 合 并 在 一 起 ,因为 低 解 值 表明 它们 具有 相似 的 类 分 布 。 该 合并 过 
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程 递 归 地 进行 ,直到 满足 预先 定义 的 终止 标准 。 

D 聚 类 分 析 

聚 类 分 析 是 一 种 流行 的 数据 离散 化 方法 。 将 属性 A WER RIRH. RKK E A 
的 分 布 以 及 数据 点 的 邻近 性 ,可 以 产生 高 质量 的 离散 化 结果 。 遵 循 自 顶 向 下 的 划分 策略 
或 自 底 向 上 的 合并 策略 , 聚 类 可 以 用 来 产生 A 的 概念 分 层 , 其 中 每 个 簇 形成 概念 分 层 的 
一 个 节点 。 在 前 者 ,每 一 个 初始 簇 或 划分 可 以 进一步 分 解 成 若干 子 徐 , 形 成 较 低 的 概念 
层 。 在 后 者 ,通过 反复 地 对 邻近 簇 进行 分 组 ,形成 较 高 的 概念 层 。 

6) 根据 直观 划分 离散 化 

3-4-5 规则 可 以 用 来 将 数值 数据 分 割 成 相对 一 致 的 看 上 去 自然 的 区 间 。 一 般 地 ,该 规 
则 根据 最 高 有 效 位 的 取 值 范围 ,递归 逐 层 地 将 给 定 的 数据 区 域 划分 为 3.4 或 5 个 相对 等 
宽 的 区 间 。 





2. 分 类 数据 的 概念 分 层 产 生 


(1) 由 用 户 或 专家 在 模式 级 显 式 地 说 明 属 性 的 偏 序 : 通常 ,分 类 属性 或 维 的 概念 分 
层 涉 及 一 组 属性 。 用 户 或 专家 在 模式 级 通过 说 明 属性 的 偏 序 或 全 序 , 可 以 很 容易 地 定义 

(2) 通过 显 式 数据 分 组 说 明 分 层 结构 的 一 部 分 : 这 基本 上 是 人 工 定义 概念 分 层 结构 
的 一 部 分 。 在 大 型 数据 库 中 ,通过 显 式 的 值 枚 举 定义 整个 概念 分 层 是 不 现实 的 。 然 而 ,对 
于 一 小 部 分 中 间 层 数据 ,我 们 可 以 很 容易 地 显 式 说 明 分 组 。 

(3) 说 明 属 性 集 但 不 说 明 它 们 的 偏 序 : 用 户 可 以 说 明 一 个 属性 集 形成 概念 分 层 ,但 
并 不 显 式 说 明 它们 的 偏 序 。 然 后 ,系统 可 以 尝试 自动 地 产生 属性 的 序 , 构 造 有 意义 的 概念 
分 层 。 可 以 根据 给 定 属性 集中 每 个 属性 不 同 值 的 个 数 自动 地 产生 概念 分 层 。 具 有 最 多 不 
同 值 的 属性 放 在 分 层 结构 的 最 低层 。 一 个 属性 的 不 同 值 个 数 越 少 , 它 在 所 产生 的 概念 分 
层 结构 中 所 处 的 层次 就 越 高 。 在 许多 情况 下 ,这 种 启发 式 规则 都 很 有 用 。 在 考察 了 所 产 
生 的 分 层 之 后 ,如 果 必 要 ,局 部 层次 交换 或 调整 可 以 由 用 户 或 专家 来 做 。 

(4) 只 说 明 部 分 属性 集 : 在 定义 分 层 时 ,有 时 用 户 可 能 不 小 心 ,或 者 对 于 分 层 结构 中 
应 当 包 含 什么 只 有 很 模糊 的 想法 。 结 果 , 用 户 可 能 在 分 层 结构 说 明 中 只 包含 了 相关 属性 
的 一 小 部 分 。 为 了 处 理 这 种 部 分 说 明 的 分 层 结构 ,重要 的 是 在 数据 库 模式 中 菊 入 数据 语 
义 ,使 得 语义 密切 相关 的 属性 能 够 捆绑 在 一 起 。 用 这 种 办 法 ,一 个 属性 的 说 明 可 能 触发 整 
个 语义 密切 相关 的 属性 组 / 拖 进 0, 形成 一 个 完整 的 分 层 结构 。 然 而 必要 时 ,用 户 应 当 可 
以 选择 忽略 这 一 特性 。 


2.5 特征 选择 与 提取 
2.5.1 特征 选择 








所 谓 特征 选择 ,就 是 从 一 组 数量 为 N 的 特征 中 选择 出 一 组 数量 为 M 的 最 优 特征 ， 
CN>>M) 这 里 有 两 个 问题 要 解决 : 选择 一 种 可 分 性 判 据 作为 最 优 特征 选择 的 标准 ; 
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@ 找 到 一 个 好 的 算法 ,来 选择 出 这 组 最 优 特征 。 下 面 介绍 几 种 特征 选择 的 算法 。 
一 个 最 简单 的 思路 是 : 我 们 假设 N 个 特征 之 间 相互 独立 ,并 且 使 用 的 可 分 性 判 据 满 


足 可 加 性 : J (X) = DJ a, 这 时 候 只 要 把 N 个 特征 每 个 单独 使 用 时 的 可 分 性 判 据 


J Gi) 计算 出 来 ,然后 从 大 到 小 排序 : (zi) 这 J(zs) 之 … > J (zs), 选择 出 前 M 个 特 
征 就 是 一 组 最 优 的 特征 。 然 而 问题 往往 没有 这 么 简单 ,这 种 特征 独立 性 假设 多 数 情况 下 
并 不 成 立 ,并 且 可 分 性 判 据 也 不 一 定 满足 可 加 性 。 

另外 一 个 简单 的 思路 是 ( 穷 举 法 ) : 对 从 NN 中 选择 出 M 个 特征 的 所 有 组 合 情 况 都 计 
算 其 可 分 性 判 据 , 然 后 选择 出 其 中 的 最 大 者 作为 解决 方案 。 当 N 的 数值 比较 小 时 ,这 种 
方法 一 定 是 可 行 的 ,然而 当 N 比较 大 时 ,这 个 组 合 数 会 非常 大 ,如 N= 100,M=10 时 ,组 
合 数 的 数量 级 是 108 , 当 N = 20,M = 10 时 ,组 合 数 为 184756。 将 所 有 的 组 合 都 计算 一 
遍 显 然 是 不 现实 的 。 因 此 我 们 需要 有 一 个 搜索 算法 来 进行 特征 选择 , 即 次 优 搜索 算法 。 


1. 顺序 前 进 法 (Sequential Forward Selection ,SFS) 








每 次 从 未 人 选 的 特征 中 选择 一 个 特征 ,使 得 它 与 已 人 选 的 特征 组 合 到 一 起 所 得 到 的 
可 分 性 判 据 最 大 ,直到 特征 数 增加 到 M 为 止 。 用 X, 表示 在 第 k 步 时 的 特征 集合 ,搜索 算 
法 如 下 : 

(1) 开始 时 , Xe 王爷, 从 和 个 特征 中 选择 一 个 J (zi) 最 大 的 特征 ,加 入 已 选 特征 集 ， 


(2) ER kE. X 中 包含 已 经 选择 的 A 个 特征 ,对 未 人 选 的 N 一 个 特征 计算 ， 
JX: U (y). 其 中 j = 1.2... N— k, 并 且 按照 由 大 到 小 排序 ,将 可 分 性 判 据 最 大 的 
特征 Tı WMA Xis Xen = X, U (xi); 

(3) 直到 所 选 的 特征 数 等 于 M 为 止 。 


2. 顺序 后 退 法 (Sequential Backward Selection, SBS) 


同 顺序 前 进 法 的 过 程 刚好 相反 ,最 开始 时 取 Xo = {xi ,zo，… ,zw), 每 次 从 中 殊 除 一 
个 特征 ,使 得 剩余 的 特征 可 分 性 判 据 最 大 。 


3. 增 1 减 r 法 (1 一 r 法 ) 


前 两 种 方法 可 以 进一步 改进 ,如 每 次 不 是 加 入 1 个 特征 ,而 是 加 入 /个 特征 ;或 者 每 
次 不 是 剔除 一 个 特征 ,而 是 剔除 个 特征 。 这 样 的 效果 要 比 每 次 加 1 或 减 1 的 效果 好 ,但 
是 计算 量 要 增 大 。 

另外 一 种 改进 方法 是 将 SFS 和 SBS 结合 , 先 使 用 SFS 算法 逐个 选 入 /个 最 佳 特征 ， 
然后 使 用 SBS 算法 逐个 剔除 ~ 个 最 差 特征 , ! > r. 再 使 用 SFS 算法 增加 /个 特征 ,再 使 用 
SBS BJ ~ 个 特征 ,…… ,直到 选 出 M 个 特征 为 止 。 


2.5.2 特征 提取 


特征 抽取 的 方法 很 多 ,下 面 我 们 以 离散 K-L 变换 (DKLT) 的 特征 抽取 为 例 进行 介 
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绍 ,其 他 方法 与 此 类 似 。 设 原始 特征 为 N 的 矢量 于 = (woran) 均值 撩 量 m = 
E[X], 相关 和 矩阵 Rx =E[X X]. 协 方差 矩阵 Cx = E[(X—m)(X—m)`], 我 们 可 以 
对 兰 作 以 下 的 标准 正 交 变换 ,将 其 变 为 矢量 Y = (yiye yn) 

TI 


V = paka x (2-7) 


公式 (2-7) 的 每 个 分 量 ; yi = EX, 其 中 了 为 一 个 N X N 的 标准 正 交 和 矩阵 , T, 为 其 第 i + 
oo 
列 矢量 , TT = ;过 /也 就 是 说 的 每 个 分 量 是 X 每 一 个 分 量 的 线性 组 合 。 


FHE X nÍ PL KUR 


X= (Ty Y=TY= (T, T, = TD) |= Xy, (2-8) 


YN 


我 们 要 进行 特征 提取 ,也 就 是 要 用 Y 的 M RRE X, 这 种 代替 必然 带 来 误差 ,下 面 
M 
我 们 来 对 这 个 误差 进行 估计 ; 令 X = Dy Ti,1 < M < N. 引入 的 均 方 误差 为 











N N 
e#(M)= E[(X—X)'(X—X)]= >) E[y]= >) ELywy!] 
i=M+1 i=M+1 


N N 
= J, PFE[XXT]T, = J), TRT (2-9) 


i=M+1 i=M+1 
这 又 变 成 一 个 优化 问题 ,我 们 希望 寻找 到 一 个 标准 正 交 和 矩阵 T, 949 é (M) 最 小 ,因此 可 
以 取 这 样 的 准则 函数 : 











J= DD TRT- PaT- (2-10) 
第 一 项 保证 均 方 误差 最 小 ,第 二 项 保证 了 为 标准 正 交 生 降 ， i 为 一 待定 常数 。 
aJ i Fl...) = 
这 = ADT: = 0, i= M+ N (2-1) 


BI Rx T: = A: T, ,很 明显 》 为 相关 矩阵 Rx 的 特征 值 , Ti; 为 对 应 于 4; 的 特征 矢量 ,由 于 Rx 
是 一 个 实 对 称 矩 阵 , 所 以 Ti ,T。，,… ,Ty 相互 正 交 , T 为 一 个 正 交 和 矩阵 。 均 方 误差 为 
e(M)= > TI RxT, = TA T = Sia (2-12) 


i=M+1 i=M+1 


根据 和 矩阵 论 , 有 这 样 的 结论 : 一 个 NXN 的 正定 实 对 称 算 阵 有 N 个 特征 值 和 特征 矢量 ， 
这 些 特征 矢量 之 间 是 正 交 的 。 相 关 和 矩阵 Rx 就 是 一 个 实 对 称 和 矩阵 , 当 训练 样本 足够 多 时 ， 
也 可 以 满足 正定 性 ,根据 上 式 我 们 知道 , 当 要 从 N 维特 征 中 提取 出 M 维特 征 时 ,只 需要 
统计 出 特征 相关 矩阵 Rz. 然后 计算 其 特征 值 和 特征 矢量 ,选择 对 应 特征 值 最 大 的 前 M 个 
特征 矢量 作成 一 个 N X M 特征 变换 矩阵 T, 就 可 以 完成 特征 提取 。 步 又 如 下 : 
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(1) 利用 训练 样本 集合 估计 出 相关 和 矩阵 Rx = EXX]: 

(2) 计算 Rx 的 特征 值 ,并 由 大 到 小 排序 , A1 >12 三 … > w. 以 及 相应 的 特征 矢量 
Pu ss Duy 

G) 选择 前 M 个 特征 矢量 作 一 个 变换 矩阵 T = [Tt T, +° Tu]; 

(4) 在 训练 和 识别 时 ,每 一 个 输入 的 N 维特 征 矢量 X 可 以 转换 为 M 维 的 新 特征 矢量 
EREA 

这 种 方法 是 利用 相关 和 矩阵 Rx 进行 变换 的 ,同样 也 可 以 利用 协 方差 矩阵 Cx 进行 变换 ， 
还 可 以 利用 样本 的 散 度 矩 阵 Sw ,Sa ,Sr 或 者 S 录 Sas 进行 变换 。 过 程 都 是 一 样 的 ,需要 计算 
特征 值 和 特征 向 量 , 选 择 最 大 的 M 个 特征 值 对 应 的 特征 矢量 做 出 变换 矩阵 。 


2.6 小 结 


数据 预 处 理 包括 数据 清理 .数据 集成 ,数据 变换 和 数据 归 约 。 

数据 清理 例 程 试 图 填补 缺失 的 值 , 光 滑 噪声 同时 识别 离 群 点 ,并 纠正 数据 的 不 一 
致 性 。 

数据 集成 将 来 自 多 个 数据 源 的 数据 整合 成 一 致 的 数据 存储 。 语 义 异 种 性 的 解决 .元 
数据 ,相关 分 析 、 元 组 重复 检测 和 数据 冲突 检测 都 有 助 于 数据 的 顺利 集成 。 

数据 变换 例 程 将 数据 变换 成 适 于 挖掘 的 形式 。 例 如 ,属性 数据 可 以 规范 化 ,使 得 它们 
可 以 落 和 人 小 区 间 , 如 0.0~1.0。 

数据 归 约 得 到 数据 的 归 约 表示 ,而 使 得 信息 内 容 的 损失 最 小 化 。 其 中 ,数值 数据 的 概 
念 分 层 自动 产生 可 能 涉及 诸如 分 箱 .直方 图 分 析 、 聚 类 分 析 、 基 于 坟 的 离散 化 和 根据 自然 
划分 的 分 段 方 法 。 对 于 分 类 数据 ,概念 分 层 可 以 根据 定义 分 层 属 性 的 不 同 值 个 数 自动 
产生 。 

特征 的 选择 与 提取 是 模式 识别 中 重要 而 困难 的 一 步 ,模式 识别 的 第 一 步 就 是 分 析 各 
种 特征 的 有 效 性 并 选 出 最 有 代表 性 的 特征 。 降 低 特征 维 数 在 很 多 情况 下 是 有 效 设 计 分 类 
器 的 重要 课题 。 

尽管 已 经 提出 了 一 些 数据 预 处 理 的 方法 ,数据 预 处 理 仍 然 是 一 个 活跃 的 研究 领域 。 


思考 题 


1. 在 现实 世界 的 数据 中 , 某 些 属性 上 缺失 值得 到 元 组 是 比较 常见 的 ,讨论 处 理 这 一 
问题 的 方法 。 

2. 讨论 数据 集成 需要 考虑 的 问题 。 

3. 以 下 规范 化 方法 的 值 域 是 什么 ? 

(1) 最 小 -最 大 规范 化 。 

(2) z 分 数 规范 化 。 

G) z 分 数 规范 化 ,使 用 均值 绝对 偏差 而 不 是 标准 差 。 

(4) 小 数 定 标 规范 化 。 
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4. 使 用 以 下 方法 规范 化 以 下 数据 组 : 
200,300,400,600,1000 

(a) 令 min=0,max 王 1 ,最 小 -最 大 规范 化 。 

(b) z 分 数 规范 化 。 

(c) z 分 数 规范 化 ,使 用 均值 绝对 偏差 而 不 是 标准 差 。 
(d) 小 数 定 标 规范 化 。 

5. 假设 12 个 销售 价格 记录 已 经 排序 ,如 下 所 示 : 
5,10,11,13,15,35,50,55,72,92,204,215 

使 用 如 下 各 方法 将 它们 划分 成 三 个 箱 。 

(a) 等 频 ( 等 深 ) 划 分 。 

(b) 等 宽 划分 。 

(c) RŽ. 


第 3 章 ”关联 规则 挖掘 


3.1 基本 概念 


关联 规则 挖掘 发 现 大 量 数据 中 项 集 之 间 有 趣 的 关联 联系 。 如 果 两 项 或 多 项 属性 之 间 
存在 关联 ,那么 其 中 一 项 的 属性 就 可 以 依据 其 他 属性 值 进行 预测 。 关 联 规则 挖掘 是 数据 
挖掘 中 的 一 个 重要 的 课题 ,最 近 几 年 已 被 业界 深入 研究 和 广泛 应 用 。 

关联 规则 研究 有 助 于 发 现 交易 数据 库 中 不 同 商品 (项 ) 之 间 的 联系 , 找 出 顾客 购买 行 
为 模式 ,如 购买 了 某 一 商品 对 购买 其 他 商品 的 影响 。 分 析 结 果 可 以 应 用 于 商品 货架 布局 、 
货 存 安排 以 及 根据 购买 模式 对 用 户 进行 分 类 。 

关联 规则 挖掘 问题 可 以 分 为 两 个 子 问题 : 第 一 个 是 找 出 事务 数据 库 中 所 有 大 于 等 于 
用 户 指定 的 最 小 支持 度 的 数据 项 集 ;第 二 个 是 利用 频繁 项 集 生成 所 需要 的 关联 规则 ,根据 
用 户 设 定 的 最 小 置信 度 进行 取舍 ,最 后 得 到 强 关 联 规则 。 识 别 或 发 现 所 有 频繁 项 目 集 是 
关联 规则 发 现 算法 的 核心 ,关联 规则 的 基本 描述 如 下 : 


1. 项 与 项 集 


数据 库 中 不 可 分 割 的 最 小 单位 信息 称 为 项 (或 项 目 ), 用 符号 i 表示 ,项 的 集合 称 为 项 
Re WRR IS li ei) 是 项 集 , 工 中 项 目的 个 数 为 A, 则 集合 工 称 为 A- 项 集 。 例 如 ， 
集合 {啤酒 ,尿布 ,奶粉 } 是 一 个 3- 项 集 。 


2. 事务 


WIS {i sissi) 是 由 数据 库 中 所 有 项 目 构成 的 集合 ,事务 数据 库 荆 二 (istota) 
是 由 一 系列 具有 唯一 标识 的 事务 组 成 的 。 每 一 个 事务 G 二 1,2,…,n) 包含 的 项 集 都 是 
工 的 子 集 。 例 如 ,顾客 在 商场 里 同一 次 购买 多 种 商品 ,这 些 购物 信息 在 数据 库 中 有 一 个 唯 
一 的 标识 ,用 以 表示 这 些 商品 是 同一 顾客 同一 次 购买 的 , 称 该 用 户 的 本 次 购物 活动 对 应 一 
个 数据 库 事务 。 


3. 项 集 的 频数 (支持 度 计 数 ) 
包括 项 集 的 事务 数 称 为 项 集 的 频数 (支持 度 计 数 ) 。 
4. 关联 规则 


关联 规则 是 形 如 X=>Y 的 蕴涵 式 ,其 中 X,Y 分 别 是 了 的 真子 集 ,并 且 X 由 Y= ç. 
X 称 为 规则 的 前 提 , Y 称 为 规则 的 结果 。 关 联 规则 反映 X 中 的 项 目 出 现时 , Y 中 的 项 目 
也 跟着 出 现 的 规律 。 
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5. 关联 规则 的 支持 度 (support) 


关联 规则 的 支持 度 是 交易 集中 同时 包含 X # Y 的 交易 数 与 所 有 交易 数 之 比 , 它 反映 
f X 和 Y 中 所 含 的 项 在 事务 集中 同时 出 现 的 频率 , 记 为 support(X=Y), 即 
support( X=>Y)=support( XUY)=P(XY) (3-1) 


6. 关联 规则 的 置信 度 (confidence) 


关联 规则 的 置信 度 是 交易 集中 包含 X 和 Y 的 交易 数 与 所 有 交易 数 与 包含 X 的 交易 
数 之 比 , 记 为 confidence(X=>Y) ,置信 度 反 映 了 包含 X 的 事务 中 出 现 Y 的 条 件 概 率 。 即 


confidence( X> Y) =suPPort XUY _ pty | X) (3-2) 
support( X) 


7. 最 小 支持 度 与 最 小 置信 度 


通常 用 户 为 了 达到 一 定 的 要 求 ,需要 指定 规则 必须 满足 的 支持 度 和 置信 度 阔 值 ,此 两 
个 值 称 为 最 小 支持 度 阔 值 (min_sup) 和 最 小 置信 度 阔 值 (min_conf) 。 其 中 ,min_sup 描述 
了 关联 规则 的 最 低 重要 程度 ,min_conf 规定 了 关联 规则 必须 满足 的 最 低 可 靠 性 。 


8. 强 关 联 规则 


support( X>Y)>min_sup H. confidence(X 一 Y) 过 min_conf, 称 关联 规则 XSY 为 强 
关联 规则 ,否则 称 X—Y 为 弱 关 联 规则 。 通 常 所 说 的 关联 规则 一 般 是 指 强 关 联 规则 。 


9. 频繁 项 集 


设 UCTIT, 项 目 集 U 在 数据 集 T 上 的 支持 度 是 包含 U 的 事务 在 T 中 所 占 的 百分比 ， 
即 


support(U)= 


| {ET|US») || 5 
ITI gara 


式 中 , || ° | ARRA PITRAH. HMHR I 在 事务 数据 库 了 中 所 有 满足 用 户 指定 的 
最 小 支持 度 的 项 目 集 , 即 不 小 于 min_sup 的 工 的 非 空子 集 , 称 为 频繁 项 目 集 或 大 项 目 集 。 


10. 项 目 集 空间 理论 
Agrawal 等 人 建立 了 用 于 事务 数据 库 挖掘 的 项 目 集 空间 理论 。 理 论 的 核心 为， UE 

项 目 集 的 子 集 仍 是 频繁 项 目 集 ; 非 频繁 项 目 集 的 超 集 是 非 频繁 项 目 集 。 

3.2 关联 规则 挖掘 算法 一 一 Apriori 算法 原理 


最 著名 的 关联 规则 发 现 方法 是 R. Agrawal 提出 的 Apriori 算法 。 
1. Apriori 算法 的 基本 思想 
Apriori 算法 的 基本 思想 是 通过 对 数据 库 的 多 次 扫描 来 计算 项 集 的 支持 度 , 发 现 所 有 
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的 频繁 项 集 从 而 生成 关联 规则 。Apriori 算法 对 数据 集 进行 多 次 扫描 。 第 一 次 扫描 得 到 
频繁 1- 项 集 的 集合 Li ,第 &(A>1) 次 扫描 首先 利用 第 (4A 一 1) 次 扫描 的 结果 Li 来 产生 候 
选 &- 项 集 的 集合 Ci ,然后 在 扫描 的 过 程 中 确定 Ci 中 元 素 的 支持 度 ,最 后 在 每 一 次 扫描 结 
束 时 计算 频繁 上 项 集 的 集合 Le 算法 在 当 候选 一 项 集 的 集合 Ci 为 空 时 结束 。 


2. Apriori 算法 产生 频繁 项 集 的 过 程 


产生 频繁 项 集 的 过 程 主要 分 为 连接 和 剪 枝 两 步 ; 

(1) 连接 步 。 为 找到 Li(k 宇 2), 通过 Li-1 与 自身 作 连 接 产 生 候选 -项 集 的 集合 Ci。 
设 44 和 Ls 是 -1 中 的 项 集 。 记 4[ 门 表示 4 的 第 j 个 项 。Aprior 算法 假定 事务 或 项 集中 的 
项 按 字典 次 序 排序 ;对 于 (一 1) 项 集 b, 对 应 的 项 排序 为 1:[1] < LJ << hik 1] 
如 果 Le 的 元 素 h HL 的 前 (8 一 2) 个 对 应 项 相等 , 则 Li 和 可 连接 。 即 如 果 (11[1]= 
a1DN 2=7 2 DN NN [E—2]=;[kE—2]) 1 haik], 5 M l 
可 连接 。 条 件 44[k 一 1] 过 ls[k 一 1] 可 以 保证 不 产生 重复 ,而 按照 LiLo Limas 
Lise La 次 序 寻 找 频繁 项 集 可 以 避免 对 事务 数据 库 中 不 可 能 发 生 的 项 集 所 进行 的 搜索 
和 统计 工作 。 连 接 RO 产生 的 结果 项 集 为 (1[1] a[l] ehk] ,ls[k 一 1])。 

(2) 剪 枝 步 。 由 Apriori 算法 的 性 质 可 知 ,频繁 &- 项 集 的 任何 子 集 必须 是 频繁 项 集 。 
由 连接 生成 的 集合 C, 需要 进行 验证 ,去 除 不 满足 支持 度 的 非 频 繁 &- 项 集 。 


3. Apriori 算法 的 主要 步骤 


(1) 扫描 全 部 数据 ,产生 候选 1- 项 集 的 集合 Cio 

(2) 根据 最 小 支持 度 ,由 候选 1- 项 集 的 集合 C1 产生 频繁 1- 项 集 的 集合 Li 。 

(3) 对 A>>1, 重 复 执 行 步骤 (4)、(5)、(6) 。 

(4) 由 工 ,执行 连接 和 剪 枝 操作 ,产生 候选 (k 十 1) -项 集 的 集合 Crio 

(5) 根据 最 小 支持 度 , 由 候选 (十 1)- 项 集 的 集合 Ca, ,产生 频繁 (十 1) -项 集 的 集 
合 Lin。 

(6) 车工 取 8$, 则 k= 二 k 十 1, 跳 往 步 骤 (4) ;否则 , 跳 往 步骤 (7) 。 

(7) 根据 最 小 置信 度 , 由 频繁 项 集 产 生 强 关联 规则 ,结束 。 








4. Apriori 算法 描述 


输入 : 数据 库 DD, 最 小 支持 度 国 值 min_sup 。 

输出 : D 中 的 频繁 集 工 。 

(1) Begin 

(2) L=; 

(3) for(k=2; L-1 Æp;kt+)do begin 

(4) C, = AApriori_gen(L,-,); {调用 函数 Apriori_gen(L4_1) 通 过 频繁 (& 一 1)- 项 集 产 
生 候选 全 项 集 } 

(5) for 所 有 数据 集 € D do begin {扫描 D 用 于 计数 } 
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(6) C,=subset(C,,t) ; (HJ subset 找 出 该 事务 中 候选 的 所 有 子 集 } 
(7) for 所 有 候选 集 cEC， do 

(8) c，count 十 十 ; 

(9) end; 

(10) L,i= (c€ CG, |c. count22min_sup) 

(11) end; 

(12) end; 

(13) Return Li UL,UL,U:: UL, {形成 频繁 项 集 的 集合 } 


3.3 Apriori 算法 实例 分 析 


【 例 3. 1】 表 3-1 是 一 个 数据 库 的 事务 列表 ,在 数据 库 中 有 9 笔 交 易 , 即 1D| 二 9。 每 
笔 交 易 都 用 唯一 的 标识 符 TID 作 标 记 , 交 易 中 的 项 按 字典 序 存放 ,下 面 描述 一 下 Apriori 
算法 寻找 D 中 频繁 项 集 的 过 程 。 
表 3-1 数据 库 的 事务 列表 

















事务 商品 ID 的 列表 事 3 商品 ID 的 列表 
T100 hsll; T600 Izl; 
T200 h.l T700 L.I, 
T300 L.I, T800 L.L,.1,.I, 
T400 h.L.1, T900 TD ,l,l 
T500 h.l; 











设 最 小 支持 度 计数 为 2, 即 minsup=2, HA Apriori 算法 产生 候选 项 集 及 频繁 项 集 






































的 过 程 如 下 所 示 。 
1) 第 一 次 扫描 
扫描 数据 库 D 获得 每 个 候选 项 的 计数 : 
C Ëi 

项 集 | 支持 度 计数 项 集 | 支持 度 计数 
ü 6 u) 6 
u 7 比较 候选 支持 计数 Min 7 
- 与 最 小 支持 度 计数 2 
(n) e | 3 — I gm 6 
Uu) 2 u) 2 
KA 2 u) 2 























由 于 最 小 事务 支持 数 为 2, 没 有 删除 任何 项 目 。 可 以 确定 频繁 1- 项 集 的 集合 Li, 它 
由 具有 最 小 支持 度 的 候选 1- 项 集 组 成 。 
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2) 第 二 次 扫描 
为 发 现 频繁 2- 项 集 的 集合 L ,算法 使 用 L1coL1 产 生 候选 2- 项 集 的 集合 C* 。 在 剪 枝 
步 没 有 候选 从 C: 中 删除 ,因为 这 些 候选 的 每 个 子 集 也 是 频繁 的 。 

































































É; G ña 
项 集 aeo | me [支持 度 计数 | 项 集 | 支持 度 计数 
aao Ps umay a e o 0 may] a 
{1, h) 2 项 集 {h} 4 度 的 fh} 4 
U 计数 U L) 1 项 目 集 | 人 ,有 2 
人 | 2 {h h) 4 
th h) {1, h) 4 KESA 2 
{h l) {h 4} 2 {l> 15} 2 
ty ls) (by 2 
{h a) {6, 44} 0 
{h 1s} {13, 15} 1 
{4 /5} {1, 15} 0 
3) 第 三 次 扫描 
1zcoL 产 生 候选 3- 项 集 的 集合 C;， 
G Http, G 选取 大 于 Ë 
m ”| wal ma | 支持 度 计 到 | E me aa 
{1, I» h) 3 项 集 | ah 2 MER Jah 2 
{l h» 15} 计数 | H la» 15} 2 U. h» 15} 2 




















候选 3 项 集 C: 产 生 的 详细 地 列表 如 下 : 
(1) 连接 C, =Ls,coL, 
=((h,lh), (h, lh). {lists {ls lh) (1,10). (Dí) y eo 
(Pb ibahhl tho baie hs (oU, AD 
= (L. l lh hotest ihlas lets (h looh ofo sbs 
I lo 
(2) 使 用 Apriori 性 质 剪 枝 : 5⁄1 € ri $E BJ Br # aE 2 T fE lD i i 98 00, AU, 
kls} 的 2- 项 子 集 是 {I,J} (hI A Is}. (I) RE L 的 元 素 , 因 而 不 是 频繁 
的 。 因 此 ,从 Cs 中 删除 {I,Is,1)。 剪 枝 Cs={{ 了 ,Ta,1s),{h ,Ts,1s))。 
4) 第 四 次 扫描 
算法 使 用 LoL; 产 生 候选 4- 项 集 的 集合 Cio LaL = {{ 卫 ,1,1s,1s)) ,根据 
Apriori 性 质 ,因为 它 的 子 集 {1,, 1,1) 不 是 频繁 的 ,所 以 这 个 项 集 被 删除 。 这 样 C, 一 小， 
此 算法 终止 , 找 出 了 所 有 的 频繁 项 集 。 
【 例 3.2】 表 3-2 为 某 一 超市 销售 事务 数据 库 D. 使 用 Apriori 算法 发 现 DD 中 的 频繁 
项 目 集 。 
事务 数据 库 D 中 有 9 个 事务 , 即 | D | =9。 超 市 中 有 5 件 商品 可 供 顾客 选择 , 即 
1 三 {了 ,L413,14,1s), 且 1 二 5。 设 最 小 支持 数 minsup_count 二 2, 则 对 应 的 最 小 支持 
度 为 2/9=2.2%。 
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TID 商品 ID 列表 TID 商品 ID 列表 
T100 ffe T600 als 
T200 L.I, T700 L.L 
T300 I,h T800 ma m a 
T400 Irt, T900 h, l 
T500 sl; 
寻找 所 有 频繁 项 集 的 过 程 如 下 。 
局 Éi 
项 集 | 支持 度 计数 
{h} 6 
ago, 对 每 一 | | 7 选取 大 于 最 小 支持 度 的 
候选 1 项 集 计数 = z 项 目 集 候选 1 项 计数 
U3 
ua 2 
m 2 
@ G 
项 集 项 集 “| 支持 度 计数 
Uih} {h} 4 
{h} {1, h} 4 
{p l} 扫描 D， 对 每 一 H} 1 
由 LI 产生 CG | 1} 候选 2 项 集 计数 1) 2 
Unh} Tiro 4 
t, L} {n L} 2 
{Lh, 8} U. 1s} 2 
Us h} t h) 0 
{h, 15} {h 1s} 1 
ila 15} {L 1s} 0 
L, 
项 集 | 支持 度 计数 
人 4 G 
选取 大 于 最 小 
持 度 的 项 目 集 Wa 4 HLE ske 
{h 15} 2 {h h by 
{h h) 4 {h h, 1s} 
i 14} 2 
Uy s) 2 
项 集 | 支持 度 计数 项 集 “| 支持 度 计 数 
扫描 D ， 对 每 TE. 2 选取 大 于 最 小 支持 度 | hI 2 
pmm A 的 项 目 集 Uia) 
{lis h, 15} 2 th, bs Is} 2 
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3.4 Apriori 算法 源 程序 分 析 


#include< iostrean> 
#include< string> 
#include< vector> 
#include< map> 
#include< algoritin> 
using namespace std; 


class Mpriori 
{ 
pblic: 
Mriori (size t is =0,unsigned int nv= 0) 
{ 
item size =is; 
min value =nv; 
) 
//=Bpriori() (); 
Void getItem(); 
nap< vector< string> ,unsigned int> find freitem(); ”// 求 事务 的 频繁 项 
// 连 接 两 个 -1 级 频繁 项 ,得 到 第 k 级 频繁 项 
nap < vector< string ,unsigned int > apri_gen(unsigned int K, map< vector 
< string> ,unsigned int> K item); 


// 展 示 频 繁 项 集 
void showBprioriTtem(unsigned int Kmape vector< string> ,unsigned int > showep) ; 
Private: 
map int, vector< stringp> ite /存储 所 有 最 开始 的 事务 及 其 项 
map< vector< string> /unsigned int>K item; /存储 频繁 项 集 
size t item size; // 5 W H 
tmnsigned int min value; // 848 
J; 
void Ppriori::getTtem() // 用 户 输入 最 初 的 事务 集 


{ 
int ci= item size; 
for (int i=0;i<ci;i++) 
{ 
string str; 
Vector< string> tenp; 


cout<< 哺 输 入 第 "<i "NEA NE (123 end); "; 


while (cin> > str && str !="123") 
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tenp.push back(str)7 


} 

sort (tanp.begin() ,tenp.end()); 

pair< map< int, vector< string>> ::iterator, bool> ret = item.insert (mke pair(i+1, tenp)); 
if (!ret.seoond) 

{ 


--i; 


cout<< "你 输入 的 元 素 已 存在 ti E A À t"<< endl; 


map< vector< strin ,unsigned int> Apriori: :find freitem() 
{ 
unsigned int i=1; 
bool isEnpty= false; 
mep< int, vector< string>> ::iterator mit; 
for mit= item.begin() ;mit!= item.end() ;mit++ ) 
{ 
Vector string> vec=mit-> second; 
if(vec.size() !=0) 


break; 
) 
if mit== itenend() / 康 务 集 为 空 
{ 
ispi true; 


cout<< "J RAE 程序 无 法 进行 …"<< endl; 
map< vector string> unsigned int> enpty; 
retum enpty; 
} 
while(1) 
{ 
map< vector< string> /unsigned int>K itenllenp=K itew 


K item=apri gen(itt+ ,K item); 


if (K itenteap =K item) 
{ 
i= UNT MD; 
break; 
) 
/ 淹 断 是 否 需要 进行 下 一 次 寻找 
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map< vector< string> ,unsigned int>pre K item=K itew 
size t Kitemsize=K item.size(); 
/存储 应 该 删除 的 第 K 级 频繁 项 集 , 不 能 和 其 他 K 级 频繁 项 集 构成 第 K+ 1 级 项 集 的 
/集合 
if (Kitemsize!=1 && i!=1) 
{ 
Vector< mep< Vector string ,unsigned int> ::iterator > eraseVecMit; 
map vector< string> ,unsigned int> ::iterator pre K item itl=pre K item.begin(), pre K_ 
item it2; 
while (pre K item it1!=pre K itenend() 
{ 
nax Vector strin ,unsigned in ::iterator mit =pre K itm itl; 
bool isExist= true; 
Vector< string> vec1; 
vecl=pre K itm itl-> first; 
Vector< string> vec11 (vecl .begin() ,vec1.end()- 1); 
while (mit!=pre K item.end()) 
{ 
Vector< string> vec2; 
veco=mit-> first; 
Vector< string> vec22 (gec0.begin() ,vec2.end()- 1); 
if (ecl] 一 vec22) 
break; 
++mit; 
} 
if mit==pre K itm.emd()) 
isExist= false; 
if(lisExist && pre K item itl!=pre K itm.emd()) 
eraseVecMit.push back (pre K item itl);// 该 第 K 级 频繁 项 应 该 
/删除 
++pre K item itl; 
} 
size t eraseSetSize= eraseVecMit.size(); 
if (eraseSetSize— Kitemsize) 
break; 
else 
{ 
vector< map< vector< string> , unsigned int> ::iterator> :: iterator currentErs= 
eraseVedMit .begin(); 
while (currentErs!=eraseVedMit.end())// 删 除 所 有 应 该 删除 的 第 kK 级 
/人 频繁 项 
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mp vector< string> ,unsigned int> ::iterator erassMit= 
关 CurrentErs; 
K item.erase (eraseMit); 


++ CurrentErs; 


cout<< endl; 
ShowAprioriIltem(i,K item); 
retum K itew 


nap< vector< string> ,unsigned int> Mpriori::apri gen(msigned int K, map< vector< string> /unsigned int> 
K item) 
{ 
if (==5) IRIRE c 
{ 
size t cl= item size; 
mapx< int, vector< string>> ::iterator mepit= item.begin(); 
vector< string vec; 
map< string,unsigned int> cl itentenpy 
while repit!= itenend()) /将 原 事务 中 所 有 的 单项 统计 出 来 


Vector< string tenp=mapit-> second; 
Vector< string> ::iterator vecit= tenp.begin(); 
while (vecit!=tenp.end()) 
f 
paix mp string, unsigned int> ::iterator bool> ret=cl_ 
itemterp.insert make pair(* vecit+ , 1)); 


if (!ret.second) 
i 
++ ret.first-> second; 
} 
} 
++mapit; 


} 
map< string,unsigned int> ::iterator item it=cl itemtenp.begin(); 
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map< vector< string ,unsigned int> cl item; 
while (item it!=cl itemtenp.end()) /构造 第 1 级 频繁 项 集 
í 
Vectorc string> tep; 
证 (iten it-> seoond >=min value) 
t 
tenp.push back (item it-> first); 
cl item.insert (mke pair(tenp, item 让 -> second); 


cout<< endl; 
showAprioriTtem(K- 1,K item); 
map vector string> ,unsigred int> ::iterator ck item itl=K itembegin(), 
ck item it2; 
map< vector< string> ,unsigned int> ck item; 
while (ck item itlI=K item.end()) 
( 
ck item it2=ck item itl; 
++ck item it2; 


map vector< string ,unsigned int> ::iterator mit=ck item it2; 


// 取 当前 第 K 级 频繁 项 与 其 后 面 的 第 K 级 频繁 项 集 联合 , 但 要 注意 联合 条 件 
/联合 条 件 : 两 个 频繁 项 的 前 K-1 项 完全 相同 , 只 是 第 K 项 不 同 ， 然后 两 个 联合 
/生成 第 二 1 级 候选 频繁 项 
whilefmit!=K item.end()) 
{ 

Vector< string> vec,vec1,vec0; 

vecl=ck item itl-> first; 

vec2=mit-> first; 


Vector< string> ::iterator vitl,vit2; 


Vitl= vecl.begin(); 
vitæ vec? .begin(); 
mhile (vit1< vecl.end() && vit2< vec2.end()) 
I 
string strl = * vitl; 
string str2 = * vit2; 
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+vitl; 
++Vit27 


if @=2 || stri= str?) 


{ 
if (vitl!=vecl.end() && vit2!=vec2.end()) 
{ 
vec.push back(strl)7 
} 
} 
else 
break; 


I 
if(vitl=vecl.end() & vit2= vec2.end()) 
{ 


一 vitl; 
—vit2; 
string strl = * vit1; 
string str2 = * vit2; 
if (strl> str?) 
{ 
vec.push back (str2); 
vec.push back (strl); 


vec.push back (strl); 
vec.push back (str?); 
} 
mp int, vector< string>> ::iterator base itenr item.begin(); 


unsigned int Acount= 0; 

while (base iteml= itemnend() )//8 iZ t+1 级 候选 项 在 原 事务 集 
// 出 现 的 次 数 

{ 


unsigned int count= 0,minoount= UINT MAX; 
Vector string> vbase item-> second; 
Vector< string> ::iterator vecit, bwit; 
for (vecit= vec.begin();vecit < vec.end() ;vecit++ ) 
{ 
string t= * vecit; 
ont=0; 
for (wit=w.begin() ;wit < w.end();bvit+ ) 
{ 
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if(t= * bwit) 
Countr+ ; 
} 
mincount= (count <mincount? count: mincount)7 
k 
if minon =1 && minoount!= UINT MAX) 
Beount+=mincounty 
++base item; 
j 
if poant >=min value && Aozunt != 0) 
t 
sort (vec.begin() ,vec.end()); 
// 该 第 他 1 级 候选 项 为 频繁 项 , 插入 频繁 项 集 
pair<nep< vector< string> ,unsigned int> ::iterator, 
boD ret= ck item.insert (make pair (vec,Aoount) ) ; 
if (!ret.seoond) 
t 
ret.first-> second += Boont; 


) 
++mit; 
} 
++ ck item itl; 
} 
if (dk_itam.enpty()) // 该 第 二 1 级 频繁 项 集 为 空 ， 说 明 调用 结束 , 把 上 一 级 频繁 
// 项 集 返回 
retum K itew 
else 
retum ck item; 


} 
void Mpriori: :shogBprioriTtem(msigned int K,map< vector< string> ,unsigned int> showep) 
t 
map< vector< string> ,unsigned int> ::iterator showit= shomep.begin(); 
if K!=UINT MY) 
cout<< endl<< "Ë "<<K< "级 频繁 项 集 为 : "<< endl; 
else 
cout<< "最 终 的 频繁 项 集 为 : "<< ena; 
cout<< 顺 f<" \t "<< 哮 率 "<<endl; 
while (showit!= showmep.end()) 
{ 
Vector< string vec= showit—> first; 
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Vector< string> ::iterator vecit= vec.begin(); 
ata Tò"; 
while (vecit!= vec.end()) 
{ 
Cout<< * vecit<<" "; 
++ vecit; 
) 
ce ye E y 
Cout<< showit-> seoonck< endl; 
++ Showit; 


unsigned int FarseNmiber(const char * str)// 对 用 户 输入 的 数字 进行 判断 和 转换 


unsigned int nne 0; 
size t lenF strlen(str); 
for(size t i=0;i<len;it+) 
{ 
nm * =10; 
if (str[i]>= '0' && str[i]<= '9') 
nm +=str[i] - '0'; 
else 


retum 0; 


retum nny 


void min () 
{ 
//npriori a; 
unsigned int itemsize= 0; 


unsigned int min; 


cout<< "请 输入 事务 数 : n; 
Char * str= new char; 





关联 规则 挖掘 


Cin>> str; 
itemsize= parseNinber (str); 
if (itemsize— 0) 
í 
cout<< "请 输入 大 于 0 正 整 数 !"<<enal; 
J 
} while (itemsize==0); 


cout<< "i 8 A R 8: "; 
char * str= new char; 
Cin>> str; 
mir=parseNnber(str); 
if @min==0) 
{ 
cout<< "请 输入 大 于 0 正 整数 !"<<enal; 
) 
} while mir==0); 


priori a (itemsize,min) ; 
a.getItem(); 
map< vector< string> ,unsigned int> MprioriMap= a.find freitem(); 
//a.showAprioriTtem(UINT MX, AprioriMep) ; 
System("pause"); 
} 
上 述 程序 的 运行 结果 如 图 3-1 所 示 。 输 入 事务 数 为 9, 最 小 国 值 为 2。9 个 事务 的 项 集 如 
F: {Dlls}, (L.l). {bsb}, {hs}, {h.i}, (L.I). {bs}, {Tlz,Ts,1s}, 
全 ,7 ,7 。 程 序 首先 搜索 9 个 事务 的 项 集 , 统 计 第 1 级 备 选 项 的 支持 度 , 如 图 3-1 所 示 。 
将 备 选 项 的 支持 度 EPS H FC 88 2 2. 4 k AS 2 WDR 8 E, Br 9 
的 第 1 级 频繁 项 集 为 (I ABAL 11). 为 产生 第 2 级 频繁 项 集 , 程 序 进行 连 
接 步 ， gp neh 2 级 备 选项 ,然后 进行 剪 枝 步 ,去 除非 频繁 
备 选项 ,再 比较 所 剩 备 选项 的 支持 度 与 最 小 阅 值 , 即 得 第 2 级 频繁 项 集 : (l)e 
{J}, (hfl). {1,13),{1s,T1),{1,1s)。 按 照 上 述 步骤 进行 下 去 得 到 最 终 的 频繁 项 
集 为 {1 bol {TD ,T ,Ts)。 
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图 3-1 程序 运行 结果 


3.5 Apriori 算法 的 特点 及 应 用 


3.5.1 Apriori 算法 特点 





Apriori 算法 是 应 用 最 广泛 的 关联 规则 挖掘 算法 , 它 有 如 下 优点 。 

(1) Apriori 算法 是 一 个 迭代 算法 。 该 算法 首先 挖掘 生成 志 ，, Rah L, 生成 C:, 再 
H C, 扫描 事务 数据 库 得 到 L, ;根据 L, 生成 C:, 由 Cs 扫描 事务 数据 库 得 到 工 ;, 直到 C, 
为 空 而 产生 所 有 频繁 项 目 集 ,Apriori 算法 将 生成 所 有 大 于 等 于 最 小 支持 度 的 频繁 项 











目 集 。 
(2) 数据 采用 水 平 组 织 方式 。 所 谓 水 了 ! 就 是 数据 按照 (事务 编号 ,项 目 集 } 的 形 
式 组 织 。 


(3) 采用 Apriori 优化 方法 。 所 谓 Apriori 优化 就 是 利用 Apriori 性 质 进行 的 优化 。 
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关联 规则 控 气 


(4) 适合 事务 数据 库 的 关联 规则 挖掘 。 

O 适合 稀 政 数 据 集 。 根 据 以 往 的 研究 ,该 算法 只 能 适合 稀疏 数据 集 的 关联 规则 挖 
掘 ,也 就 是 频繁 项 目 集 长 度 稍 小 的 数据 集 。 

Apriori 算法 作为 经 典 的 频繁 项 目 集 生成 算法 ,在 数据 挖掘 中 具有 里 程 碑 的 作用 ,但 
是 随 着 研究 的 深入 , 它 的 缺点 也 暴露 出 来 ,主要 有 以 下 几 个 缺点 。 

(1) 多 次 扫描 事务 数据 库 , 需 要 很 大 的 IO 负载 。 在 Apriori 算法 的 扫描 中 ,对 第 
次 循环 ,候选 集 C, 中 的 每 个 元 素 都 要 扫描 数据 库 一 遍 来 验证 其 是 否 加 入 L, 假如 一 个 频 
繁 项 目 集 包含 10 个 项 ,那么 就 至 少 需要 扫描 数据 库 10 遍 。 当 数据 库 中 存放 大 量 的 事务 
数据 时 ,在 有 限 的 内 存 容量 下 系统 1/O 负载 相当 大 ,每 次 扫描 数据 库 的 时 间 就 会 很 长 ,这 
样 效 率 就 会 非常 低 。 

(2) 可 能 产生 庞大 的 候选 集 。Apriori 算法 由 Lii 产生 候选 集 C, 其 结果 是 指数 
增长 的 ,例如 10' 个 1 频繁 项 目 集 就 有 可 能 产生 接近 10 个 元 素 的 2- 候 选集 。 如 此 大 的 候 
选集 对 时 间 和 内 存 容量 都 是 一 种 挑战 。 

(3) 在 频繁 项 目 集 长 度 变 大 的 情况 下 ,运算 时 间 显著 增加 。 当 频繁 项 目 集 长 度 变 大 
时 ,支持 该 频繁 项 目 集 的 事务 会 减少 ,从 理论 上 讲 ,计算 其 支持 度 需要 的 时 间 不 会 明显 增 
加 ,但 Apriori 算法 仍然 是 在 原来 事务 数据 库 中 来 计算 长 频繁 项 目 集 的 支持 度 , 由 于 每 个 
频繁 项 目 集 的 项 目 变 多 了 ,所 以 在 确定 每 个 频繁 项 目 集 是 否 被 事务 支持 的 开销 也 增 大 了 ， 
而 且 事 务 没 有 减少 ,因此 频繁 项 目 集 长 度 增加 了 ,运算 时 间 也 显著 增加 了 。 


3.5.2 Apriori 算法 应 用 


Apriori 算法 是 应 用 最 广泛 的 关联 规则 挖掘 算法 ,通过 对 各 种 领域 数据 的 关联 性 进行 
分 析 , 控 掘 成 果 在 相关 的 决策 制定 过 程 中 具有 重要 的 参考 价值 。 

Apriori 算法 广泛 应 用 于 商业 中 ,例如 应 用 于 消费 市 场 价格 分 析 中 , 它 能 够 很 快 地 求 
出 各 种 产品 之 间 的 价格 关系 和 它们 之 间 的 影响 。 通 过 数据 挖掘 ,市 场 人 员 可 以 瞄准 目标 
客户 ,采用 个 人 股票 行 市 .最 新 信息 ,特殊 的 市 场 推广 活动 或 其 他 一 些 特殊 的 信息 手段 ,从 
而 极 大 地 减少 广告 预算 和 增加 收入 。 

Apriori 算法 应 用 于 网 络 安全 领域 ,如 入 侵 检测 技术 中 。 早 期 中 大 型 的 计算 机 系统 中 
都 收集 了 审计 信息 来 建立 跟踪 档案 ,这 些 审计 跟踪 的 目的 多 是 为 了 性 能 测试 或 计 费 ,因此 
对 攻击 检测 提供 的 有 用 信息 比较 少 。 它 通过 模式 学 习 和 训练 可 以 发 现 网 络 用 户 的 异常 行 
为 模式 ,使 网 络 人 侵 检测 系统 可 以 快速 发 现 用 户 的 行为 模式 ,能 够 快速 锁定 攻击 者 ,提高 
了 基于 关联 规则 的 入 侵 检测 系统 的 检测 性 能 。 

Apriori 算法 应 用 于 高 校 管理 中 。 随 着 高 校 贫困 生 人 数 的 不 断 增 加 ,学 校 管理 部 门 资 
助 工作 难度 也 越 来 越 大 ,数据 挖掘 算法 可 以 帮助 相关 部 门 解决 上 述 问 题 。 例 如 ,有 的 研究 
者 将 关联 规则 的 Apriori 算法 应 用 到 贫困 助 学 体 系 中 ,并 且 针 对 经 典 Apriori 挖掘 算法 存 
在 的 不 足 进 行 改 进 , 先 将 事务 数据 库 映射 为 一 个 布尔 矩阵 ,用 一 种 逐 层 递增 的 思想 来 动态 
地 分 配 内 存 进 行 存储 ,再 利用 向 量 求 "与 "运算 ,寻找 频繁 项 集 。 实 验 结果 表明 ,这 种 改进 
后 的 Apriori 算法 在 运行 效率 上 有 了 很 大 的 提升 ,挖掘 出 的 规则 也 可 以 有 效 地 辅助 学 校 
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管理 部 门 有 针对 性 地 开展 贫困 助 学 工 作 。 

Apriori 算法 被 广泛 应 用 于 移动 通信 和 领域。 移动 增值 业务 逐渐 成 为 移动 通信 市 场 上 
最 有 活力 、 最 具 潜力 .最 受 瞩 目的 业务 。 随 着 产业 的 复苏 , 越 来 越 多 的 增值 业务 表现 出 强 
劲 的 发 展 势 头 ,呈现 出 应 用 多 元 化 、 营 销 品 牌 化 ,管理 集中 化 、 合 作 纵深 化 的 特点 。 针 对 这 
种 趋势 ,在 关联 规则 数据 挖掘 中 广泛 应 用 的 Apriori 算法 被 很 多 公司 应 用 。 例 如 ,依托 某 
电信 运营 商 正在 建设 的 增值 业务 Web 数据 仓库 平台 ,对 来 自 移 动 增值 业务 方面 的 调查 数 
据 进行 了 相关 的 挖掘 处 理 ,从 而 获得 了 关于 用 户 行为 特征 和 需求 的 间接 反映 市 场 动态 的 
有 用 信息 ,这 些 信息 在 指导 运营 商 的 业务 运营 和 辅助 业务 提供 商 的 决策 制定 等 方面 具有 
十 分 重要 的 参考 价值 。 





3.6 小 结 


本 章 详 细 地 介绍 了 关联 规则 挖掘 的 基本 概念 ,对 经 典 的 关联 规则 挖掘 算法 一 一 
Apriori 算法 的 原理 以 及 发 现 频繁 项 目 集 的 过 程 进行 了 描述 ,并 用 实例 进行 了 说 明 ,同时 
还 分 析 了 Apriori 算法 的 特点 和 该 算法 存在 的 缺陷 ,得 出 它 在 发 现 频繁 项 集 的 过 程 中 需 
要 多 次 扫描 事务 数据 库 , 此 外 还 要 产生 大 量 的 候选 项 集 , 这 都 会 对 算法 的 效率 产生 很 大 的 
影响 ,并 且 在 频繁 项 目 集 长 度 变 大 的 情况 下 ,运算 时 间 显 著 增 加 ,最 后 介绍 了 Apriori 算 
法 在 商业 、 网 络 安全、 高 校 管理 和 移动 通信 等 领域 的 应 用 。 


思考 题 
L 解释 关联 规则 的 定义 。 


2. 描述 Apriori 关联 规则 算法 。 
3. 如 表 3-3 所 示 的 数据 库 有 5 个 事物 。 设 minsup=60% ,min_conf 二 80%。 











表 3-3 ”数据库 
TID 购买 的 商品 TID 购买 的 商品 
1100 {M,O,N,K,E,Y} I400 (M,U,C,K,Y) 
I200 {D,O,N,K,E,Y} 1500 {C:0;0;K,I;E} 
1300 IM.A.K.E) 











(1) 分 别 使 用 Apriori 和 FP 增长 算法 找 出 所 有 频繁 项 集 。 比 较 两 种 挖掘 过 程 的 
(2) 列举 所 有 与 下 面 的 元 规则 匹配 的 强 关 联 规则 (给 出 支持 度 s 和 置信 和 度 c) ,其 中 ,X 
是 代表 客户 的 变量 ;item; 是 表示 项 的 变量 (如 A、B 等 ): 
VxzEtransaction,buys(X,iteml) 人 buys(X,items) 一 buys(X,items)[s,c] 
4. 如 表 3-4 所 示 的 关系 表 People 是 要 挖掘 的 数据 集 , 有 三 个 属性 (Age, Married, 
NumCars)。 假 如 用 户 指 定 的 min_sup 二 60% .min_conf 二 80%, 试 挖掘 表 3-4 中 的 数量 关 
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联 规则 。 


表 3-4 关系 表 People 











RecordID Age Married RecordID Age Married NumCars 
100 23 No 400 34 Yes 2 
200 25 Yes 500 38 Yes 2 
300 29 No 
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第 4 章 决策 树 分 类 算法 


4.1 基本 概念 
4.1.1 决策 树 分 类 算法 概述 


从 数据 中 生成 分 类 器 的 一 个 特别 有 效 的 方法 是 生成 一 棵 决策 树 (Decision Tree) 。 决 
策 树 表示 方法 是 应 用 最 广泛 的 迎 辑 方法 之 一 , 它 从 一 组 无 次 序 、 无 规则 的 事例 中 推理 出 决 
策 树 表示 形式 的 分 类 规则 。 决 策 树 分 类 方法 采用 自 顶 向 下 的 递归 方式 ,在 决策 树 的 内 部 
节点 进行 属性 值 的 比较 ,根据 不 同 的 属性 值 判断 从 该 节点 向 下 的 分 支 ,在 决策 树 的 叶 节 点 
得 到 结论 。 所 以 ,从 决策 树 的 根 到 叶 节点 的 一 条 路 径 就 对 应 着 一 条 合 取 规 则 , 整 棵 决策 树 
就 对 应 着 一 组 析 取 表达 式 规则 。 

基于 决策 树 的 分 类 方法 的 一 个 最 大 的 优点 就 是 它 在 学 习 过 程 中 不 需要 使 用 者 了 解 很 
多 背景 知识 ,这 同时 也 是 它 的 最 大 缺点 ,只 要 训练 例子 能 够 用 属性 -结论 式 表示 出 来 ,就 能 
使 用 该 算法 来 学 习 。 

决策 树 是 一 个 类 似 于 流程 图 的 树 结构 ,其 中 每 个 内 部 节点 表示 在 一 个 属性 上 的 测试 ， 
每 个 分 支 代表 一 个 测试 输出 ,而 每 个 树叶 节点 代表 类 或 类 分 布 , 树 的 最 项 层 节 点 是 根 节 
点 。 一 棵 典型 的 决策 树 如 图 4-1 所 示 , 它 表示 概念 buy_computer, 预 测 顾客 是 否 可 能 购 
买 计算 机 。 内 部 节点 用 和 矩形 表示 ,而 树叶 节点 用 椭圆 表示 。 为 了 对 未 知 的 样本 分 类 ,样本 
的 属性 值 在 决策 树 上 测试 。 决 策 树 从 根 到 叶 节 点 的 一 条 路 径 就 对 应 着 一 条 合 取 规 则 , 因 
此 决策 树 容易 转换 成 分 类 规则 。 





age 


<30 31-40 240 
student Gs) credit-rating 
no i Ç yes excellent I fair 


图 41 一 棵 典型 的 决策 树 


























决策 树 是 应 用 非常 广泛 的 分 类 方法 ,目前 有 多 种 决策 树 方法 ,如 ID3.CN2.SLIQ.SPRINT 
等 ,下 面 先 介绍 决策 树 分 类 的 基本 核心 思想 ,然后 详细 介绍 ID3 和 C4. 5 决策 树 方法 。 


4.1.2 决策 树 基 本 算法 概述 


决策 树 分 类 算法 通常 分 为 两 个 步骤 : 决策 树 生成 和 决策 树 修剪 。 





决策 树 分 类 


1. 决策 树 生成 算法 


决策 树 生成 算法 的 输入 参数 是 一 组 带 有 类 别 标记 的 样本 ,输出 是 构造 一 颗 决 策 树 ,该 
树 可 以 是 一 棵 二 叉 树 或 多 叉 树 。 二 叉 树 的 内 部 节点 ( 非 叶 子 节点 ) 一 般 表 示 为 一 个 逻辑 判 
断 ,如 形式 为 (a 二 vi) 的 逻辑 判断 ,其 中 ai 是 属性 ,vi 是 该 属性 的 属性 值 , 树 的 边 是 逻辑 判 
断 的 分 支 结 果 。 多 又 树 的 内 部 节点 是 属性 , 边 是 该 属性 的 所 有 取 值 ,有 几 个 属性 值 ,就 有 
几 条 边 , 树 的 叶子 节点 都 是 类 别 标记 。 构 造 决策 树 的 方法 是 采用 自 上 而 下 的 递归 方法 ,其 
思路 如 算法 4.1 所 示 。 

算法 4.1 Generate_decision_tree( 决 策 树 生 成 算法 )。 

输入 : 训练 样本 samples, 由 离散 值 属性 表示 ;候选 属性 的 集合 attribute_list。 

输出 : 一 棵 决策 树 ( 由 给 定 的 训练 数据 产生 一 棵 决策 树 ) 。 

D 创建 节点 N: 

(2) 如 果 samples 都 在 同一 个 类 C 则 返回 N 作为 叶 节 点 ,以 类 C 标记 ,程序 结束 ; 

(3) 如 果 attribute_list 为 空 , 则 返回 N 作为 叶 节点 ,标记 为 samples 中 最 普通 的 类 ， 
程序 结束 ; 

(4) 选择 attribute_list 中 具有 最 高 信息 增益 的 属性 test_attribute; 

(5) 标记 节点 N 为 test_attribute; 

(6) 对 于 test_attribute 中 的 每 一 个 已 知 值 ai 由 节点 N 生长 出 一 个 条 件 为 test 
attribute 一 ai 的 分 枝 ; 

(7) 设 si 是 samples 中 test_attribute 二 a 的 样本 的 集合 ,如 果 si 为 空 则 加 上 一 个 树 
叶 , 标 记 为 samples 中 最 普通 的 类 ,否则 加 上 一 个 由 Generate_decision_treelsisattribute— 
list-test_attribute) 返 回 的 节点 。 

以 代表 训练 样本 的 单个 节点 开始 构建 树 (对 应 算法 4. 1 的 步骤 (1)); 如 果 样 本 都 在 同 
一 个 类 , 则 该 节点 成 为 树叶 ,并 使 用 该 类 标记 (步骤 (2) 和 (3)) ,否则 ,算法 使 用 称 为 信息 增 
益 的 度量 作为 启发 信息 ,选择 能 够 最 好 地 将 样本 分 类 的 属性 (步骤 (4)) ,该 属性 成 为 该 节 
点 的 “测试 ?或 “判定 ?属性 (步骤 (5)) 。 值 得 注意 的 是 ,在 这 类 算法 中 ,所 有 的 属性 都 是 取 
离散 值 的 ,如 果 是 连续 值 的 属性 必须 离散 化 。 对 测试 属性 的 每 个 已 知 的 值 ,创建 一 个 分 
支 ,并 据 此 划分 样本 (步骤 (6)~(7))。 算 法 使 用 同样 的 过 程 ,递归 地 形成 每 个 划分 上 的 样 
本 决策 树 , 一 旦 一 个 属性 出 现在 一 个 节点 上 ,就 不 必 考 虑 该 节点 的 任何 后 代 ( 步 又 (7)), 递 
归 划 分 步骤 ,当下 列 条 件 之 一 成 立时 停止 。 

D 给 定 节点 的 所 有 样本 属于 同一 类 (步骤 (2) 和 (3))。 

(2) 没有 剩余 属性 可 以 用 来 进一步 划分 样本 ,采用 多 数 表决 (步骤 (3))。 这 涉及 将 给 
定 的 节点 转换 成 树叶 ,并 用 samples 中 的 多 数 所 在 的 类 别 标记 它 , 另 一 种 方式 是 可 以 存放 
节点 样本 的 分 布 。 

(3) 分 支 test_attribute 二 a 没有 样本 。 在 这 种 情况 下 ,以 samples 中 的 多 数 类 创建 一 
个 树叶 (步骤 (7)) 。 

构造 好 的 决策 树 的 关键 在 于 如 何 选择 好 的 逻辑 判断 或 属性 。 对 于 同样 一 组 样本 ,可 
以 有 很 多 决策 树 符 合 这 组 样本 。 研 究 结果 表明 ,一 般 情况 下 , 树 越 小 则 树 的 预测 能 力 越 
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强 。 要 构造 尽 可 能 小 的 决策 树 ,关键 在 于 选择 合适 的 产生 分 支 的 属性 。 由 于 构造 最 小 的 
树 是 NP- 难 问题 ,因此 只 能 采用 启发 式 策略 来 进行 属性 选择 。 属 性 选择 依赖 于 对 各 种 样 
本 子 集 的 不 纯度 (Impurity) 度 量 方法 。 不 纯度 度量 方法 包括 信息 增益 (Information 
Gain) ,信息 增益 比 (Gain Ratio) .Gini-index、\ 距 离 度量 (Distance Measure) ,J-measure, G 
统计 、x2 统计 .证 据 权 重 (Weight of Evidence)、 最 小 描述 长 度 (MLP)、 正 交 法 
(Ortogonality Measure) 、 相 关 度 (Relevance) 和 Relief 等 。 不 同 的 度量 有 不 同 的 效果 , 特 
别 是 对 于 多 值 属性 ,选择 合适 的 度量 方法 对 于 结果 的 影响 是 很 大 的 。 


2. 决策 树 修改 算法 


现实 世界 的 数据 一 般 不 可 能 是 完美 的 ,可 能 某 些 属性 字段 上 缺 值 (Missing Values); 
可 能 缺少 必需 的 数据 而 造成 数据 不 完整 ,也 可 能 数据 是 不 准确 .含有 噪声 甚至 是 错误 的 ， 
在 此 主要 讨论 噪声 问题 。 基 本 的 决策 树 构造 法 没有 考虑 噪声 ,因此 生成 的 决策 树 完全 与 
训练 样本 拟 合 ,在 有 噪声 的 情况 下 ,完全 拟 合 将 导致 过 分 拟 合 (Overfitting), 即 分 类 模型 
对 训练 数据 的 完全 拟 合 反而 使 分 类 模型 对 现实 数据 的 分 类 预测 性 能 降低 。 剪 枝 是 一 种 克 
服 噪声 的 基本 技术 ,同时 它 也 能 使 树 得 到 简化 而 变 得 更 容易 理解 ,有 两 种 基本 的 剪 枝 
策略 : 

(1) 预先 前 枝 (Pre-Pruning): 在 生成 树 的 同时 决定 是 继续 对 不 纯 的 训练 子 集 进行 划 
分 还 是 停机 。 

(2) 后 剪 枝 (Post-Pruning): 一 种 拟 合 -化 简 (Fitting-and-Simplifying) 的 两 阶段 方 
法 。 首 先生 成 与 训练 数据 完全 拟 合 的 一 棵 决策 树 ,然后 从 树 的 叶子 开始 剪 枝 , 逐 步 向 根 的 
方向 剪 。 前 枝 时 要 用 到 一 个 测试 数据 集合 (Tuning Set È Adjusting Set) ,如 果 存 在 某 个 
叶子 剪 去 后 测试 集 上 的 准确 度 或 其 他 测试 度 不 降低 , 则 剪 去 该 叶子 ;否则 停机 。 

理论 上 讲 , 后 剪 枝 好 于 预先 剪 枝 , 但 计算 复杂 度 大 。 剪 枝 过 程 中 一 般 要 涉及 一 些 统计 
参数 或 闵 值 (如 停机 阔 值 ) 。 值 得 注意 的 是 , 剪 枝 并 不 是 对 所 有 的 数据 集 都 好 的 ,就 像 小 决 
策 树 并 不 是 最 好 (具有 最 大 的 预测 率 ) 的 决策 树 一 样 。 从 某 种 意义 上 讲 , 剪 枝 也 是 一 种 偏 
向 (Bias) ,对 有 些 数据 效果 好 而 对 另外 一 些 数据 则 效果 差 。 


4.2 决策 树 分 类 算法 一 一 ID3 算法 原理 
4.2.1 ID3 算法 原理 


基本 决策 树 构造 算法 是 一 个 贪心 算法 , 它 采 用 自 顶 向 下 的 递归 方法 构造 决策 树 ,著名 
的 决策 树 算法 ID3 的 基本 策略 如 下 。 
D 树 以 代表 训练 样本 的 单个 节点 开始 。 
(2) 如 果 样本 都 在 同一 个 类 中 , 则 这 个 节点 称 为 树叶 节点 并 标记 为 该 类 别 。 
(3) 否则 算法 使 用 信息 粹 ( 称 为 信息 增益 ) 作 为 启发 知识 来 帮助 选择 合适 的 将 样本 分 
的 属性 ,以 便 将 样本 集 划 分 为 若干 子 集 , 该 属性 就 是 相应 节点 的 “测试 "或 “判定 ”属性 ， 
时 所 有 属性 应 当 是 离散 值 。 
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(4) 对 测试 属性 的 每 个 已 知 的 离散 值 创 建 一 个 分 支 ,并 据 此 划分 样本 。 

(5) 算法 使 用 类 似 的 方法 ,递归 地 形成 每 个 划分 上 的 样本 决策 树 ,一 个 属性 一 旦 出 现 
在 某 个 节点 上 ,那么 它 就 不 能 再 出 现在 该 节点 之 后 所 产生 的 子 树 节点 中 。 

(6) 整个 递归 过 程 在 下 列 条 件 之 一 成 立时 停止 。 

。 给 定 节点 的 所 有 样本 属于 同一 类 。 

。 没有 剩余 属性 可 以 用 来 进一步 划分 样本 ,这 时 候 该 节点 作为 树叶 ,并 用 剩余 样本 

中 出 现 最 多 的 类 型 作为 叶子 节点 的 类 型 。 

。 某 一 分 枝 没有 样本 ,在 这 种 情况 下 以 训练 样本 集中 占 多 数 的 类 创建 一 个 树叶 。 

ID3 算法 的 核心 是 在 决策 树 各 级 节点 上 选择 属性 时 ,用 信息 增益 作为 属性 的 选择 标 
准 ,使 得 在 每 一 个 非 节 点 进行 测试 时 ,能 获得 关于 被 测试 记录 最 大 的 类 别 信息 。 





4.2.2 AMEER 


为 了 寻找 对 样本 进行 分 类 的 最 优 方 法 ,我 们 要 做 的 工作 就 是 使 对 一 个 样本 分 类 时 需 
要 问 的 问题 最 少 ( 即 树 的 深度 最 小 ) 。 因 此 ,需要 某 种 函数 来 衡量 哪些 问题 将 提供 最 为 平 
衡 的 划分 ,信息 增益 就 是 这 样 的 函数 之 一 。 

设 S 是 训练 样本 集 , 它 包 括 个 类 别 的 样本 ,这 些 类 别 分 别 用 Ci ,Cs,…,C, 表示 , 那 
Z S 的 炉 (entropy) 或 者 期 望 信息 就 为 


entropy(S) 一 一 >p. log; p; (4-1) 


i=0 


其 中 , p: 表示 类 C; 的 概率 。 如 果 将 S 中 的 类 训练 样本 看 成 种 不 同 的 消息 ,那么 S 的 
炉 表 示 对 每 一 种 消息 编码 需要 的 平均 比特 数 ,|S |X entropy(S) 就 表示 对 S 进行 编码 需 
要 的 比特 数 ,其 中 ,|S| 表示 S 中 的 样本 数目 。 如 果 n=2, p =p:=0.5, W4, 
entropy(S) =— 0. 5 log:0. 5 — 0. 5 log:0. 5 = 1 
如 果 n=2, pı =0. 67, p: =0. 33, 那 么 ， 
entropy(S) =— 0. 67 log;0. 67 — 0. 33 log:0. 33 = 0. 92 

T L. FE KA ri R, E E E EOD RK ERRA RAR ERE R. AE, 
RTT 1 fE WIR RAAE A BE Gmpurity) J — ARE E. RRAK. PAER. DE. U 
BERI Ar SE E U A E ERI AE AO PEZE HI f ERR R Ar B E TAO A ERR AF o 

从 直观 上 ,在 没有 任何 信息 的 情况 下 ,如果 要 猜测 一 个 样本 的 类 别 , 我 们 会 倾向 于 指 
定 该 样本 以 0. 5 的 概率 属于 类 别 C. 并 以 同样 的 0. 5 概率 属于 类 别 Co. 也 就 是 说 ,在 没 
有 反对 信息 存在 的 情况 下 ,我 们 会 假设 先 验 概率 相等 ,此 时 的 炉 为 1。 但 是 , 当 我 们 已 知 
Ci 的 样本 数 占 67% ,Cs 的 样本 数 占 33%. REA 0. 92 ,也 就 是 说 ,信息 已 经 有 了 0. 08 
比特 的 增加 。 

当 样 本 属于 每 个 类 的 概率 相等 时 , 即 对 任意 i 有 Zp; 二 1/n BF. ER HR RE AKE 
logan. 而 当 所 有 样本 属于 同一 类 时 ,S 的 炉 为 0。 其 他 情况 的 炉 介 于 0 ~ logan. B 4-2 
ZË n = 2 时 布尔 分 类 的 炉 函 数 随 pi 从 0 到 1 变化 时 的 曲线 。 

设 属性 A 将 S 划分 成 m 份 ,根据 A 划分 的 子 集 的 焙 或 期 望 信息 由 下 式 给 出 ; 
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图 4-2 n 二 2 时 布尔 分 类 的 炉 函 数 

entropy(S,A) = > Š entropy(Si) (4-2) 
i=0 S 


其 中 , S, 表示 根据 属性 A 划分 的 S 的 第 i 个 子 集 ; |S| 和 | S;| 分 别 表示 S 和 S; 中 的 样 
本 数目 。 信 息 增益 用 来 衡量 焙 的 期 望 减少 值 ,因此 ,使 用 属性 A 对 S 进行 划分 获得 的 信 
息 增益 为 
gain(S,A) = entropy(S) — entropy(S,A) (4-3) 

gain(S,A) 是 指 因 为 知道 属性 A WES FERREE. gain SARAK, kit 
测试 属性 A wy E Af Ba Z. Mas J CK Oh A Ak. Ha Is IM 46 i E X. 
TAB 48 R K RWBER K. r a SD P| FE, BO A AR A 8 Ed HQ E (1 
的 信息 增益 大 小 排序 ,获得 最 大 信息 增益 的 属性 被 选择 为 分 支 属 性 。 

在 表 4-1 的 训练 样本 中 ,属于 类 yes 的 样本 有 9 个 ,属于 类 no 的 样本 有 5 个 ,于 是 ,对 
给 定 样本 分 类 所 需 的 期 望 信息 为 



































entropy(S) =— $ log: zr — TT log: pr = 0.94 
表 4-1 训练 样本 
outlook temperature humidity windy play 
sunny hot high false no 
sunny hot high true no 
Overcast hot high false yes 
rainy mild high false yes 
rainy cool normal false yes 
rainy cool normal true no 
Overcast cool normal true yes 
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续 表 
outlook temperature humidity windy play 
sunny mild high false no 
sunny cool normal false yes 
rainy mild normal false yes 
sunny mild normal true yes 
overcast mild high true yes 
overcast hot normal false yes 
rainy mild high true no 














HIE 0.940 反映 了 对 样本 集合 S 280 SIE E BERERA. Mñ 
值 越 小 ,划分 的 纯度 越 高 ,对 样本 分 类 的 不 确定 性 就 越 低 。 一 个 属性 的 信息 增益 ,就 是 用 
这 个 属性 对 样本 分 类 而 导致 焙 的 期 望 值 下 降 。 因 此 ,ID3 算法 在 每 一 个 节点 选择 取得 最 
大 信息 增益 的 属性 。 

下 面 分 别 对 属性 outlook, temperature, humidity 和 windy 计算 根据 这 些 属性 对 训练 
样本 进行 划分 得 到 的 信息 增益 。 

设 训 练 样本 集 为 S,outlook 将 S 划分 成 三 个 部 分 , 即 outlook = sunny, outlook = 
overcast 和 outlook 一 rainy, 我 们 用 S, 来 表示 属性 值 为 v 的 样本 集 ,于 是 |Swws | = 5， 
| Sover | = 4,|S., |= 5, 而 在 Ssumy 中 ,类 yes 的 样本 有 2 个 ,类 no 的 样本 有 3 个 ,Sam 
BJ 





entropy( Ssuny ) 2 log; i 3 log; i 
9 D 9 9 
同 理 , 可 以 计算 出 Soeese 和 Suay 的 炉 分 别 为 0 和 0.971, 因 此 ,使 用 属性 outlook 划分 
S 的 期 望 信息 为 
entropy(S outlook) = X 0.971 + = X 04 5 X 0.971 = 0. 694 


14 14 
outlook 的 信息 增益 为 
gain(S,outlook) = 0. 940 — 0. 694 = 0. 246 
同 理 可 得 gain(S, temperature) =0. 151, gain (S, humidity) = 0. 048, gain(S, windy) = 
0.029, 因 为 属性 outlook 的 信息 增益 最 大 ,所 以 选择 属性 outlook 作为 根 节点 的 测试 属 
性 ,并 对 应 每 个 值 ( 即 sunny,overcast,rainy) 在 根 节点 向 下 创建 分 支 。 


0.971 

















4.2.3 ID3 算法 


算法 4.2 ID3 算法 。 

(1) 初始 化 决策 树 工 ,使 其 只 包含 一 个 树 根 节点 (X,Q) ,其 中 又 是 全 体 样 本 集 ,Q 为 
全 体 属性 集 。 

(2) f(T 中 所 有 时 节点 (X' ,Q') 都 满足 X 属于 同一 类 或 Q 为 空 ) then 算法 停止。 
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(3) else { 任 取 一 个 不 具有 (2) 中 所 述 状态 的 叶 节点 (X Q). 

(4) for each Q 中 的 属性 A do 计算 信息 增益 gain(A,X ) 。 

(5) 选择 具有 最 高 信息 增益 的 属性 B 作为 节点 (X' ,Q' ) 的 测试 属性 。 

(6) for each B 的 取 值 b do 从 该 节点 (X" ，Q' ) 伸 出 分 支 ,代表 测试 输出 B= bi; 求 得 
X 中 B 值 等 于 的 子 集 Xi ,并 生成 相应 的 叶 节点 (X ,Q' 一 {B));})。 

(7) 转 (2); } 。 


4.3 ID3 算法 实例 分 析 


【 例 4. 1】 表 4-2 给 出 了 一 个 可 能 带 有 噪声 的 数据 集合 。 它 有 4 个 属性 : outlook, 
temperature, humidity 和 windy。 它 们 分 别 为 no 和 yes 两 类 。 通 过 ID3 算法 构造 决策 树 
将 数据 进行 分 类 。 






























































表 4-2 样本 数据 集 
属性 outlook temperature humidity windy 类 
1 Overcast hot high not no 
2 Overcast hot high very no 
3 Overcast hot high medium no 
4 sunny hot high not yes 
5 sunny hot high medium yes 
6 rain mild high not no 
7 rain mild high medium no 
8 rain hot normal not yes 
5 rain cool normal medium no 
10 rain hot normal very no 
11 sunny cool normal very yes 
12 sunny cool normal medium yes 
13 Overcast mild high not no 
14 Overcast mild high medium no 
15 Overcast cool normal not yes 
16 Overcast cool normal medium yes 
17 rain mild normal not no 
18 rain mild normal medium no 
19 overcast mild normal medium yes 
20 overcast mild normal very yes 
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续 表 
属性 outlook temperature humidity windy 类 
21 sunny mild high very yes 
22 sunny mild high medium yes 
23 sunny hot normal not yes 
24 rain mild high very no 

















因为 初始 时 刻 属于 yes 类 和 no 类 的 实例 个 数 均 为 12 个 ,所 以 初始 时 刻 的 炉 值 为 
12_12log,12 -1 

24 24 ”24 

加 果 选取 outlook 属性 作为 测试 属性 , 则 此 时 的 条 件 精 为 
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entropy( X) log, 
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entropy( X outlook) zl g 982 ç 
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如 果 选 取 temperature 属性 作为 测试 属性 , 则 有 


一 a = 0. 4643 














8 4 4 4 z z 
entropy( X ,temperature) zl g log 8 g 08? +i H-4 zlog: = jilog 
1 
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5/ 4, 4 
Foal slog < Llog: ) 0. 6739 


如 果 选 取 humidity 属性 作为 测试 属性 , 则 有 


E lo £ 2i zlo Š lo, . 
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s 12 4 
entropy( X ,humidity) sil jzlog。 


一 0.8183 
如 果 选 取 windy 属性 作为 测试 属性 , 则 有 
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可 以 看 出 entropy(X,outlook) A 3. outlook 的 信息 对 于 分 类 有 最 大 的 帮助 ， 
提供 最 大 的 信息 量 , 即 gain(X,outlook) 最 大 。 所 以 应 该 选择 outlook 属性 作为 测试 属 
性 。 还 可 以 看 出 entropy( X) = entropy( X. windy) 最 小 , 即 gain(X,windy) = 0, 有关 
windy 的 信息 不 能 提供 任何 分 类 信息 。 选 择 outlook 作为 测试 属性 之 后 将 训练 实例 分 为 
三 个 子 集 ,生成 三 个 叶 节 点 ,对 每 个 叶 节 点 依次 利用 上 面 的 过 程 生 成 如 图 4-3 所 示 的 决 
策 树 。 

【 例 4.2】 如 表 4-3 所 示 为 一 个 商场 顾客 数据 库 ( 训 练 样本 集合 ) 属 性 。 样 本 集合 的 
类 别 属性 为 buy computer, 该 属性 有 两 个 不 同 取 值 , 即 {yes,no}, 因此 就 有 两 个 不 同 的 
类 别 (m = 2)。 设 Ci 对 应 yes 类 别 , C, 对 应 no 类别。 Ci 类 别 包含 9 个 样本 , C, 类别 包含 
5 个 样本 。 
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图 4-3 生成 的 决策 树 
表 4-3 一 个 商场 顾客 数据 库 

rid age income student credit rating buy computer 
1 <30 high no fair Do 

2 <30 high no excellent no 

š 30—40 high no fair yes 

4 >40 medium no fair yes 

5 >40 low yes fair yes 

6 >40 low yes excellent no 

7 30~40 low yes excellent yes 

8 <30 medium no fair no 

9 <30 low yes fair yes 

10 >40 medium yes fair yes 

11 <30 medium yes excellent yes 

12 30~40 medium no excellent yes 

13 30~40 high yes fair yes 
14 >40 medium no excellent no 

为 了 计算 每 个 属性 的 信息 增益 ,首先 计算 出 所 有 (对 一 个 给 定 样本 进行 分 类 所 需要 ) 


的 信息 量 ,具体 计算 过 程 如 下 : 
I(siss2)= I(9,5) Z log; 


9 jo 5 
14 14 u 


接着 需要 计算 每 个 属性 的 信息 粹 。 假 设 先 从 属性 age 开始 ,根据 属性 age 中 每 个 取 值 在 
C, 类 别 和 Cs 类 别 中 的 分 布 ,就 可 以 计算 出 每 个 分 布 所 对 应 的 信息 。 





0.94 
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Xi F age=“ < 30”;sn = 2,sa = 3,I(su ,+sna)= 0.971, 
对 于 age=“ 30 ~ 40 ”; s2 = 4,52 = 0, I (sn ss )= 0, 
对 于 age=“ > 40”; ss = 3,szs = 2,I(su,sa)= 0.971, 
然后 就 可 以 计算 出 车 根据 属性 age 对 样本 集合 进行 划分 ,所 获得 的 对 一 个 数据 对 象 
进行 分 类 而 需要 的 信息 炉 , 由 此 获得 利用 属性 age 对 样本 集合 进行 划分 的 信息 增益 为 : 
gain(age)= I(si,s2)— E(age)= 0. 245 





类 似 可 以 获得 

gain(income) =0. 0029 

gain(student)=0.151 

gain(credit rating) =0. 048 
显然 选择 属性 age 所 获得 的 信息 增益 最 大 ,因此 被 作为 测试 属性 用 于 产生 当前 分 支 
节点 。 这 个 新 产生 的 节点 被 标记 为 age; 同时 根据 属性 age 的 三 个 不 同 取 值 ,产生 三 
个 不 同 的 分 支 , 当 前 的 样本 集合 被 划分 为 三 个 子 集 ,如 图 4-4 所 示 。 其 中 落 入 age= 
“30~40? 子 集 的 样本 类 别 均 为 C, 类 别 ,因此 在 这 个 分 支 末端 产生 一 个 叶 节 点 并 标 
WH C, 类 别 。 根 据 如 表 4-3 所 示 的 训练 样本 集合 ,最 终 产生 一 个 如 图 4-4 所 示 的 决 
策 树 。 








income | student | creditrating | class 

















high no fair no 
high no excellent no 
medium no fair no 
low yes fair yes 
medium yes excellent yes 























<30 === == ¿= 
income | student | credit rating | class 
high no fair yes 
30-40 
age low yes excellent yes 
medium no excellent yes 
high yes fair yes 
>40 








income | student | creditrating | class 

















medium no fair yes 
low yes fair yes 
low yes excellent no 
medium yes fair yes 
medium no excellent no 




















图 4-4 选择 属性 age 产生 相应 分 支 的 示意 描述 


从 图 4-4 中 可 以 看 出 ,age 一 "30 一 40? 的 子 集 样本 的 类 别 相同 , 均 为 yes, 故 该 节点 将 














ET 二 





成 为 一 个 叶子 节点 ,并且 其 类 别 标记 为 yes。 
接 下 来 ,对 age 节点 的 不 纯 分 支 子 节点 进一步 完成 与 上 述 步骤 类 似 的 计算 ,最 后 得 到 
的 决策 树 如 图 4-5 所 示 。 





age 
<30 30-40 >40 
student yes credit rating 
yes no fair excellent 
yes no yes no 


图 4-5 是 否 买 计算 机 的 分 类 与 预测 决策 树 示例 


4.4 ID3 算法 源 程序 分 析 


#include< iostrem> 

#include< string> 

#include< vector> 

#include< mep> 

#include< algoritin> 

#include< anath> 

using namespace std; 

#define MXIEN 6// 输 入 每 行 的 数据 个 数 


// 多 叉 树 的 实现 

MXK 

//2 父 指针 表示 法 ， 适 于 经 常 找 父 节点 的 应 用 

/1/3 子女 链表 示 法 , 适 于 经 常 找 子 节点 的 应 用 

/1/4 左 长 子 ，, 布 兄弟 表示 法 ,实现 比较 麻烦 

/5 每 个 节点 的 所 有 孩子 用 vector 保 存 

JON: 数据 结构 的 设计 很 重要 ,本 算法 采用 5 比较 合适 ， 同时 

// 注 意 维护 剩余 样 例 和 剩余 属性 信息 ,建树 时 横向 遍历 靠 循环 属性 的 值 
// 挫 向 遍历 靠 递归 调用 


Vector< vector< string>> state; /实例 集 

Vector< string> itm XIEN); // 对 应 一 行 实例 集 
Vector< string> attribute ro; ”// 保 存 首 行 即 属性 行 数据 
string end("end"); // 输 入 结束 
string yes ("yes"); 

string no("no"); 
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string blank ("”); 
map string,vector< string >>mep attribute values; ”// 存 储 属性 对 应 的 所 有 值 


int tree size=0; 


struct Node{ IRRE 
string attribute; // 属 性 值 
string arrived value; JAk B) 8 tE (Ë 
Vector< Node * > childs; // 所 有 的 孩子 
Nde(){ 
attribute= blank; 


J 
Node * root; 


/根据 数据 实例 计算 属性 与 值 组 成 的 nap 
void ComputekapFroanpIVector(){ 
unsigned int i,j,k; 
bool exited false; 
vector< string values; 
for(ü=1; i<MXIE 1; it+){ /按照 列 遍历 
for(j=1; j < state.size(); j++ ){ 
for (k= 0; k < values.size(); k++ ){ 
if(!values[k] .ompare (state[j] [i])) exited true; 
) 
if(!exited){ 
values.push back(state[j] [i]); // 注 意 vector 都 是 从 前 面 插入 的 ， 
// 注 意 更 新 it, 始终 指向 vector 头 


exited false; 
} 
mep attribute values[state[0] [i]]=values; 
values.erase (values.begin(), values.end()); 


// 恨 据 具 体 属性 和 值 来 计算 倘 
dable CamputeEntropy (vector< vector< string> > renain state, string attribute, string value, bool 
ifparent) { 
Vector< int> count (2,0); 
Unsigned int i,j; 
bool doe flag- false; // 哨 兵 值 
for j= 1; j <MXIEN; j+ ) ( 
证 Gone flag) break; 
if(lattribute ros] .omrere (attribute) ) ( 
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for(i=1; i< ramin state.size(); i++)( 
if((!iffrarentss!ramain state[i] BG].omparetvalue)) | | ifrarent) { 
/ifkarent 记 录 是 否 算 父 节点 
if(!remain state[i] MƏTEN - 1] .ompare (yes)) ( 
Count[O]++ ; 
) 
else count[1]++ ; 


dæ flag= true; 


if(ooumt[0]==0 || count[1]==0) retum O; /全 部 是 正 实例 或 者 负 实例 

/具体 计算 炉 , 根 据 [+ cont[0],- count[],1og' 通 过 换 底 公式 换 成 自然 数 底数 

dable smF count [0]+ count [1]; 

dable entrcpy=- cant [0] /sum* log (count [0] /sum) /1og (2.0) - count[1]/smx log(count[1]/sum /1og (2. 
0); 

retum entropy; 


/计算 按照 属性 attribute 划 分 当前 剩余 实例 的 信息 增益 
dable ConputeGain (vector< Vector string>> renain_state, string attribute) ( 
unsigned int j,k,n; 
//B oR AWAYTA 
dable paret entropy CmputsEntrqy (ramin state, attribite, blank, tne); 
dable children entropy= 0; 
LARIE R R A AEA 8 
vector< string values=nep attribute values[attribute]; 
Vector< doble ratio; 
Vector< int> oont values; 
int tenpint; 
for (m= 0; m values.size(); mt+ ) ( 
tenpint= 0; 
for (E= 1; kK MXIEN - 1; k++ ) ( 
if(!attribute row[k] .ompare (attribute)) { 
for Ü= 1; j< remain state.size(); j++){ 
if(!renain state[j] [k] .ompare (values [m])) { 
tenpint++ ; 


} 
cant values.push back (tenpint); 





for = 0; i values.size(); j++){ 
ratio.push back((Gouiblejcount values[j] / (dable) (remain state.size()- 1)); 

} 

dable tep entry; 

for(j=0; 3< values.size(); j++ ){ 
tap entrcpy= GmputeEnt-ropy(remain state, attribute, values[j], false); 
children entroy += ratio[j] * tep entropy; 

} 

retum (rarent entropy - children entropy); 


int FindAttriNnByNae (string attri) ( 
for (int i=0; i<MXIEN; i++){ 
if (!state[0] [i] .ompare (attri)) retum i; 
} 
Cerr<< "can't find the nmth of attribute"<< endl; 
retum 0; 


// 找 出 样 例 中 占 多 数 的 正 / 负 性 
string MostommonLabel (vector< Vector< string>> rarain state) { 
int p= 0, r= 0; 
for (unsigned i= 0; i< remain state.size(); i++) ( 
if(!remain state[i] MOTEN- 1] .ompare (yes)) p++ ; 
ele mH; 
} 
if(œ =n) retum yes; 
else retum no; 


// 刊 断 样 例 是 否 正 负 性 都 为 label 
bool A11ThesaneTabel (vector< vector< string>> renain state, string label){ 
int count= 0; 
for (unsigned int i=0; i< remain state.size(); i++)( 
if (!ramin state[i] MAXIEN- 1] .cmpare (label)) Count+t+ ; 
} 
if (omt— remain state.size()- 1) retum true; 
else retum false; 


// 计 算 信息 增 益 , DES 构建 决 策 树 
//ourrent: node 为 当前 的 节点 
//renain state 为 剩余 待 分 类 的 样 例 
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//remian attribute 为 剩余 还 没有 考虑 的 属性 
// 返 回 根 节点 指针 
Node * BulidDecisionPreeDFS (Node * p, vector< vector< string>> renain state, vector< string> remain _ 


attribute) { 

//if (rawin state.size()>0){ 
//printv (remain state); 

Ih 

if p=) 
pnw Node () ; 

// B 12 2 | 09 tur AIN DL 

证 AllThesamelabel (remain state, yes)) ( 
p-> attribute= yes; 
retum p; 

} 

if AllThesanelabel (renain state, no)){ 
p-> attribute no; 
retum p; 

} 


if (rawin attribute.size() 一 0){// 所 有 的 属性 均 已 经 考虑 完了 ,还 没有 分 尽 


string label= MbstCoamonLabel (remain state); 
p-> attribute= label; 
retum p; 


dable mx gir 0, tap gain; 
Vector< string ::iterator max it= rawin attribute.begin(); 
vector< string> ::iterator itl; 
for(itl= ramin attribute.begin(); itl < remain attribute.end(); itl++ ){ 
tap gainr OmruteGain(remain state, (* it1)); 
if (tep gain >max gain) ( 
max air teap gain; 


max it=itl; 


} 
/下 面 根据 mas 让 指向 的 属性 来 划分 当前 样 例 , 更 新 样 例 集 和 属性 集 
vector< string new attribute; 
Vector< vector< string>> new state; 
for (vector< string> ::iterator it remain attribute.begin(); itX remain 
attribute.end(); it2++ ){ 
if((* it?) .ompare(* max it)) new attribute.push back(x it2); 
} 
// 确 定 了 最 佳 划分 属性 , 注意 保存 
p-> attribute= * max it; 
vector< string> values—nmep attribute values[* max it]; 





int attribue nme FindAttriNnByName (* max it); 
new state.push back(attribute row); 
for (gector< string> ::iterator it3=values.begin(); it3 <values.end(); 
it3r-+)( 
for (unsigned int i=1; i < rawin state.size(); i++){ 
if(!remain state[i] [attribue nu] .onpare(* it3)){ 
new state.push back(remain state[i])7 


} 
Node * new node=new Node () ; 
new_node > arrived valus * it3; 
if pew state.size() 一 0){// 表 示 当 前 没有 这 个 分 支 的 样 例 , 当前 的 new node 为 
/叶子 节点 

new_node-> attribute= MbstCommcnLabel (ravain state); 
} 
else 

BulidDecisionTreeDFS (new_node, new state, new attribute); 
// 递 归 函 数 返回 即 回溯 时 需要 四 将 新 节点 加 入 父 节点 孩子 容器 ;四 清 除 new_state 容 器 
p-> childs.push back (new node); 
new_state.erase (new_state.begin()+ l,new_state.end()); 

// 注 意 先 清空 new_state 中 前 一 个 取 值 的 样 例 , 准备 遍历 下 一 个 取 值 样 例 


retum p; 


void Irput () ( 
string s; 
while(cin> > s,s.anpare (end) !=0) {//-1 为 输入 结束 
item[0]=s; 
for (int i= 1;i< MAXIEN; i++){ 
cin>> item[i]; 
) 
state.push back(item); ”// 注 意 首 行 信息 也 输入 进去 , 即 属性 
} 
for(int j= 0; j<MXIEN; j++ ){ 
attribute row.push back (state[0] [3]) ; 


void PrintTree (Node * p, int depth) { 
for (int i=0; i< depth; i++) cout << '\t'; /按照 树 的 深度 先 输出 tab 
if(!p-> arrived value.erpty()) ( 
cout<< p-> arrived value<< endl; 
for (int i=0; i<depthr1; i++) out << 'Nt'; // 按 照 树 的 深度 先 输出 tab 
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cout<< p-> attribute<< endl; 

for (vector< Node * > ::iterator it=p-> childs.begin(); it!=p-> 
childs.end(); it++)( 
PrintTree(* it, depth +1); 


Void FreeTree (Node * p) ( 
if(p==NJLL) 
return; 
for (vector< Node * > ::iterator it=p-> childs.begin(); it!=p-> 
childs.end(); it++){ 
FreeTree(* it); 


int main(){ 
Iput (); 
vector< string remain attribute; 


string outlook ("Outlook"); 

string Tenperature ("Ienperature"); 

string Hmidity ("Hmidity") ; 

string Wind ("Wind"); 

remain attribute.push back (outlook) ; 

remain attribute.push back (Tenperature) ; 

ramin attribute.push back (Himidity); 

remain attribute.push back (Wind); 

vector< vector< string>> renain state; 

for (unsigned int i= 0; i< state.size(); i++ ){ 
ramin state.push back(state[i]); 

} 

ConputsMapFYCPPUVector()7 

Ioot= BalidpDecisionTreeDFS (root, rawin state, renain attribute); 

cout<< "the decisicn tree is :"<< endl; 

PrintTree (root,0); 

FreeTree (root); 

cout<< erdl; 

coutx<< "tree size:"<< tree size<< endl; 

retum 0; 


结果 分 析 : 运行 结果 如 图 4-6 所 示 。 


temperature 
hot 


no 


mild 


overcast 


hunidity 
high 


normal 


yes 


cool 


temperature 


hot 


yes 


mild 


yes 
cool 


windy 


weak 


输入 的 训练 数据 如 下 : 








图 4-6 运行 结果 


day outlook tenperature himidity wind play temis 


1 sunny hot high weak no 


2 sunny hot hig 





ong no 
3 overcast hot high weak yes 
4 rainy mild high weak yes 

5 rainy cool nomal weak yes 


6 rainy cool nomal s 





7 overcast cool nomal strong yes 


8 sunny mild high weak no 
9 sunny cool nomal weak y 


10 rainy mild nomal weak 





11 smy mild nomal strong yes 


12 overcast mild high strong yes 


13 overcast hot nomal weak yes 


14 rainy mild high strong no 


end 





首先 保存 首 行 即 属性 行 数据 ,存储 


成 的 map。 检 测 所 有 的 属性 
决策 树 节点 ,由 该 属性 的 不 




















Z 








,根据 具体 





属性 对 应 的 所 有 值 ,根据 数据 实例 计算 
属性 和 值 来 计算 炉 , 选 择 信息 增益 最 大 





决策 树 分 类 算法 





属性 与 值 组 
的 属性 产生 





同 取 值 建立 分 支 ,再 对 各 分 支 的 子 集 递归 调用 该 方法 , 求 做 划 


分 后 各 个 值 的 炉 ,建立 决策 树 节点 的 分 支 , 直 到 所 有 子 集 仅 包含 同一 类 别 的 数据 为 止 。 最 
后 得 到 的 一 棵 决策 树 如 图 4-7 所 示 , 它 可 以 用 来 对 新 的 样本 进行 分 类 。 
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outlook 





humidity yes windy 
— Pos 
no yes no yes 


图 4-7 得 到 的 决策 树 


4.5 ID3 算法 的 特点 及 应 用 
4.5.1 ID3 算法 特点 


ID3 算法 的 优点 是 : 算法 的 理论 清晰 ,方法 简单 ,学 习 能 力 较 强 。 

ID3 算法 的 缺点 是 : 

(1) 信息 增益 的 计算 依赖 于 特征 数目 较 多 的 特征 ,而 属性 取 值 最 多 的 属性 并 不 一 定 最 优 。 

(2) ID3 是 非 递增 算法 。 

(3) ID3 是 单 变量 决策 树 ( 在 分 枝 节 点 上 只 考虑 单个 属性 ), 许 多 复杂 概念 的 表达 困 
难 , 属 性 相互 关系 强调 不 够 ,容易 导致 决策 树 中 子 树 的 重复 或 有 些 属性 在 决策 树 的 某 一 路 
径 上 被 检验 多 次 。 

(4) 抗 噪 性 差 ,训练 例子 中 正 例 和 反例 的 比例 较 难 控制 。 


4.5.2 ID3 算法 应 用 


1. ID3 算法 在 汽车 售后 服务 中 的 应 用 


据 调查 ,国外 汽车 80 儿 的 利润 是 由 售后 服务 得 到 的 ,而 整 车 销售 只 占 总 利润 的 20%， 
因此 很 多 公司 都 努力 提高 汽车 的 售后 服务 水 平 。 随 着 数据 库 的 多 年 使 用 ,在 竞争 日 益 激 
烈 的 汽车 行业 里 ,汽车 售后 服务 商 存 有 大 量 的 客户 数据 。 如 何 提高 汽车 售后 服务 水 平 ,发 
现 客户 的 需求 和 服务 中 的 一 些 规律 ,将 成 为 汽车 售后 服务 企业 关心 和 重视 的 问题 ,鉴于 此 
种 情况 ,利用 数据 挖掘 技术 ID3 算法 ,根据 汽车 售后 服务 业 客户 消费 行为 的 特征 对 客户 进 
行 细 分 及 客户 特征 分 析 , 把 大 量 的 客户 按照 标准 分 成 不 同 的 类 。 最 终 根 据 客户 的 类 别 属 
性 特征 ,为 不 同类 型 的 客户 制订 不 同 的 营销 策略 ,从 而 使 企业 获得 较 高 的 利润 。 














2. ID3 算法 在 ATM 选 点 预测 系统 中 的 应 用 
自动 柜员 机 ATM 作为 银行 为 客户 提供 服务 的 窗口 ,其 快捷 有 效 的 自助 方式 ,早已 被 

















国内 金融 机 构 及 客户 广泛 认可 。 在 中 国 , 金 融 自助 服务 具有 巨大 的 增长 潜力 。 金 融 业 在 
布 放 ATM 时 需要 在 满足 用 户 需要 的 基础 上 保证 银行 收益 最 大 化 ,最 大 限度 地 提高 ATM 
利用 率 。 而 现 有 ATM 的 布点 并 不 完全 合理 。 有 些 区 域 的 ATM 网 点 密度 过 大 ,很 容易 
加 剧 竞 争 , 造 成 效率 低下 ;有些 区 域 的 ATM 网 点 密度 反而 过 小 ,有 些 大 银行 在 一 些 区 域 
存在 网 点 空白 区 ,不 能 为 客户 提供 更 好 的 服务 。 因 此 如 何 合理 和 有 效 地 布 放 ATM 已 成 
为 银行 有 待 解决 的 问题 。 利 用 数据 挖掘 技术 和 面向 属性 归纳 以 及 分 类 决策 树 的 ID3 算 
法 ,可 以 挖掘 以 往 积累 的 ATM 部 署 区 域 信息 ,发 现 累计 取款 量 大 、 次 数 多 和 查询 次 数 高 
的 ATM 部 署 点 的 特征 。 通 过 分 析 数据 ,建立 选 点 模型 ,可 以 找 出 利用 率 高 的 ATM 地 区 
的 特征 ,可 作为 金融 机 构 部 署 ATM 的 参考 。 


4.6 决策 树 分 类 算法 一 一 C4. 5 算法 原理 
4.6.1 C4.5 算 法 


上 面 已 经 提 到 ,ID3 还 存在 许多 需要 改进 的 地 方 ,为 此 , Quinlan 在 1993 年 提出 了 
ID3 的 改进 版 本 C4. 5 算法 。 它 与 ID3 算法 的 不 同 点 包括 : 

(1) 分 支 指标 采用 增益 比例 ,而 不 是 ID3 所 使 用 的 信息 增益 。 

(2) 按照 数值 属性 值 的 大 小 对 样本 排序 ,从 中 选择 一 个 分 割 点 ,划分 数值 属性 的 取 值 
区 间 , 从 而 将 ID3 的 处 理 能 力 扩充 到 数值 属性 上 来 。 

(3) 将 训练 样本 集中 的 位 置 属性 值 用 最 常用 的 值 代替 ,或 者 用 该 属性 所 有 取 值 的 平 
均值 代替 ,从 而 处 理 缺 少 属性 值 的 训练 样本 。 

(4) 使 用 次 迭代 交叉 验证 ,评估 模型 的 优 劣 程度 。 

(5) 根据 生成 的 决策 树 ,可 以 产生 一 个 让 then 规则 的 集合 ,每 一 个 规则 代表 从 根 节 
点 到 叶 节 点 的 一 条 路 径 。 

C4.5 算法 的 核心 思想 与 ID3 完全 一 样 ,下 面 ,我 们 仅 就 C4.5 算法 与 ID3 算法 的 一 些 
不 同 点 进行 讨论 。 


1. 增益 比例 


信息 增益 是 一 种 衡量 最 优 分 支 属性 的 有 效 函 数 ,但 是 它 倾 向 于 选择 具有 大 量 不 同 取 
值 的 属性 ,从 而 产生 许多 小 而 纯 的 子 集 。 例 如 病人 的 ID .姓名 和 日 期 等 ,特别 是 作为 关系 
数据 库 中 记录 的 主 码 的 属性 ,根据 这 样 的 属性 划分 的 子 集 都 是 单元 集 ,对 应 的 决策 树 节点 
当然 是 纯 节 点 了 。 因 此 ,需要 新 的 指标 来 降低 这 种 情况 下 的 增益 。Quinlan 提出 使 用 增 
益 比例 来 代替 信息 增益 。 

首先 ,我 们 来 考虑 训练 样本 关于 属性 值 的 信息 量 ( 入 )split_info(S,A), 其 中 ,S 代表 
训练 样本 集 ;A 代表 属性 ,这 个 信息 量 是 与 样本 的 类 别 无 关 的 , 它 的 计算 公式 如 下 : 

split_info(S,A) = 一 >) > log; 二 

其 中 , S; 表示 根据 属性 A 划分 的 第 i 个 样本 子 集 , 样 本 在 A 上 的 取 值 分 布 越 均匀 ,split _ 
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info 的 值 就 越 大 。split_info 用 来 衡量 属性 分 裂 数据 的 广度 和 均匀 性 。 属 性 A 的 增益 比 
例 计算 如 下 : 


gain(S,A) 


TRGA (4-5) 


gain_ratio(S.A) = 


其 中 , gain(S,A) 表示 信息 增益 。 

当 存 在 i 使 得 |S;| |S] 时 ,split_info 将 非常 小 ,从 而 导致 增益 比例 异常 大 ,C4.5 
为 解决 此 问题 ,进行 了 改进 , 它 计算 每 个 属性 的 信息 增益 ,对 于 超过 平均 信息 增益 的 属性 ， 
再 进一步 根据 增益 比例 来 选取 属性 。 

一 个 属性 分 割 样本 的 广度 越 大 ,均匀 性 越 强 ,该 属性 的 split_info 越 大 ,增益 比例 就 越 
小 。 因 此 ,split_info 降低 了 选择 那些 值 较 多 且 均 匀 分 布 的 属性 的 可 能 性 。 

例如 , 含 个 样本 的 集合 按 属性 A 划分 为 n 组 (每 组 一 个 样本 ) ,A 的 分 裂 信 息 为 
logan, JAPE B Kin 个 样本 平分 为 两 组 ,B 的 分 裂 信 息 为 1, 若 A、B 有 同样 的 信息 增益 , 显 
然 , 按 信息 增益 比例 量度 应 选择 B 属性 。 

采用 增益 比例 作为 选择 属性 的 标准 ,克服 了 信息 增益 量度 的 缺点 ,但 是 算法 偏向 于 选 
择 取 值 较 集中 的 属性 ( 即 们 值 最 小 的 属性 ) ,而 它 并 不 一 定 是 对 分 类 最 重要 的 属性 。 


2. 数值 属性 的 处 理 








C4.5 处 理 数 值 属性 的 过 程 如 下 : 

(1) 按照 属性 值 对 训练 数据 进行 排序 。 

(2) 用 不 同 的 冰 值 对 训练 数据 进行 动态 划分 。 

(3) 当 输 入 改变 时 确定 一 个 阔 值 。 

(4) 取 当 前 样本 的 属性 值 和 前 一 个 样本 属性 值 的 中 点 作为 新 的 阔 值 。 
(5) 生成 两 个 划分 ,所 有 的 样本 分 布 到 这 两 个 划分 中 。 

(6) 得 到 所 有 可 能 的 阔 值 .增益 和 增益 比例 。 

每 一 个 数值 属性 划分 为 两 个 区 间 , 即 大 于 阔 值 或 小 于 等 于 阔 值 。 


3. 未 知 属性 值 的 处 理 


C4.5 处 理 样 本 中 未 知 属 性 值 的 方法 是 将 未 知 值 用 最 常用 的 值 代替 ,或 者 用 该 属性 所 
有 取 值 的 平均 值 代替 。 另 一 种 解决 办 法 是 采用 概率 的 办 法 ,为 属性 的 每 一 个 取 值 赋予 一 
个 概率 ,在 划分 样本 集 时 ,将 未 知 属性 值 的 样本 按照 属性 值 的 概率 分 配 到 子 节点 中 去 ,这 
些 概率 的 获取 依赖 于 已 知 的 属性 值 的 分 布 。 

在 表 4-1 的 例子 中 ,属性 outlook 有 三 个 不 同 取 值 ,其 中 值 为 sunny 的 样本 有 5 个 , 值 
为 overcast 的 样本 有 4 个 , 值 为 rainy 的 样本 有 5 个 ,总 共 14 个 已 知 属性 值 的 样本 。 因 
此 ,如 果 存 在 一 个 未 知 outlook 属性 值 的 样本 ,那么 根据 属性 outlook 分 支 时 , 分配 到 
outlook=sunny 的 样本 数 为 5 十 5/14 个 ,分 配 到 outlook= overcast 的 样本 数 为 4 十 4/14 
个 ,分 配 到 outlook=rainy 的 样本 数 为 5 十 5/14 个 。 





3. 大 次 交叉 验证 
交叉 验证 是 一 种 模型 评估 方法 , 它 将 使 用 学 习 样本 产生 的 决策 树 模型 应 用 于 独立 的 








74 














测试 样本 ,从 而 对 学 习 的 结果 进行 验证 。 如 果 对 学 习 样本 进行 分 析 产生 的 大 多 数 或 者 全 
部 分 支 都 是 基于 随机 噪声 的 ,那么 使 用 测试 样本 进行 分 类 的 结果 将 非常 精 糕 。 

如 果 将 上 述 的 学 习 - 验 证 过 程 重 复 次 ,就 称 为 次 迭代 交叉 验证 。 首 先 将 所 有 的 训 
练 样本 平均 分 成 & 份 ,每 次 使 用 其 中 的 一 份 作为 测试 样本 ,使 用 其 余 的 & 一 1 次 作为 学 习 
样本 ,然后 选择 平均 分 类 精度 最 高 的 树 作为 最 后 的 结果 。 通 常 ,分 类 精度 最 高 的 树 并 不 是 
节点 最 多 的 树 。 除 了 用 于 选择 规模 较 小 的 树 外 ,交叉 验证 还 用 于 决策 树 的 修剪 。k Kik 
代 交 叉 验证 非常 适用 于 训练 样本 数目 比较 少 的 情形 。 但 是 由 于 要 构建 棵 决策 树 , 它 的 
计算 量 非常 大 。 


5. 规则 的 产生 


C4.5 还 提供 了 将 决策 树 模型 转换 为 if-then 规则 的 算法 。 规 则 存储 于 一 个 二 维 数组 
中 ,每 一 行 代表 一 个 规则 。 表 的 每 一 列 代表 样本 的 一 个 属性 , 列 的 值 代表 了 属性 的 不 同 取 
值 ,例如 ,对 于 分 类 属性 来 说 ,0、1 分 别 代表 取 属性 的 第 一 、 第 二 个 值 ,对 于 数值 属性 来 说 ， 
0、1 分 别 代表 小 于 等 于 和 大 于 阔 值 。 如 果 列 值 为 一 1, 则 代表 工作 中 不 包含 该 属性 。 


4.6.2 C4.5 算法 的 伪 代 码 


假设 用 S 代表 当前 样本 集 ,当前 候选 属性 集 用 A 表示 , 则 C4.5 算法 C4. 5formtree(S, A) 
的 伪 代 码 如 下 。 
算法 4.3 Generate_decision_tree 由 给 定 的 训练 数据 产生 一 棵 决策 树 。 
输入 : 训练 样本 samples; 候选 属性 的 集合 attributelist 。 
输出 , 一 棵 决策 树 。 
(1) 创建 根 节点 N。 
(2) IF S 都 属于 同一 类 C, 则 返回 N 为 叶 节 点 ,标记 为 类 C, 
(3) IF attributelist 为 空 OR S 中 所 剩 的 样本 数 少 于 某 给 定 值 , 则 返回 N 为 叶 节点 ， 
标记 NN 为 S 中 出 现 最 多 的 类 。 
(4) FOR each attributelist 中 的 属性 ,计算 信息 增益 率 information gain ratio, 
(5) N 的 测试 属性 test. attribute=attributelist 具有 最 高 信息 增益 率 的 属性 。 
(6) IF 测试 属性 为 连续 型 , 则 找到 该 属性 的 分 割 国 值 。 
(7) For each 由 节点 N 一 个 新 的 叶子 节点 { 
IF 该 叶子 节点 对 应 的 样本 子 集 S 为 空 ， 
则 分 裂 此 叶子 节点 生成 新 叶 节 点 ,将 其 标记 为 S 中 出 现 最 多 的 类 ; 
ELSE 
在 该 叶子 节点 上 执行 C4. 5formtree(S', S'. attributelist) , 继续 对 它 
分 裂 ， 
} 
(8) 计算 每 个 节点 的 分 类 错误 ,进行 剪 枝 。 

















4.7 C4 5 算法 实例 分 析 


【 例 4.3】 下 面 我 们 通过 对 毕业 生 就 业 信息 的 分 析 加 以 理解 。 这 个 分 析 结果 能 够 帮 
助教 育 者 寻找 到 可 能 影响 毕业 生 就 业 的 信息 ,从 而 在 今后 的 教学 过 程 中 进行 改进 ,使 得 毕 
业 生 在 就 业 时 更 具 竞争 力 。 

K 4-4 的 数据 是 经 过 预 处 理 的 数据 集 ,从 表 中 我 们 可 以 得 到 类 标号 属性 “就 业 情 况 ” 
有 两 个 不 同 的 值 (“已 ”,“ 未 ”) ,因此 有 两 个 不 同 的 类 。 其 中 对 应 于 类 值 “ 已 "有 14 个 样本 ， 










































































类 值 “未 "有 8 个 样本 。 
表 4-4 毕业 生 就 业 信 息 表 
学 号 性 别 学 生 干 部 综合 成 绩 毕业 论文 就 业 情 况 
2000041134 男 是 70~79 优 已 
2000041135 女 是 80~89 中 已 
2000041201 男 不 是 60~69 不 及 格 未 
2000041202 男 是 60~69 良 已 
2000041203 男 是 70—79 中 已 
2000041204 男 不 是 70—79 B 未 
2000041205 女 是 60 一 69 良 已 
2000041209 男 是 60 一 69 良 已 
2000041210 女 是 70—79 中 未 
2000041211 男 不 是 60—69 及 格 已 
2000041215 男 是 80—89 及 格 已 
2000041216 男 是 70—79 B 已 
2000041223 男 不 是 70—79 及 格 未 
2000041319 男 不 是 60~69 及 格 已 
2000041320 男 是 70—79 良 已 
2000041321 男 不 是 70—79 未 
2000041322 男 不 是 80 一 89 未 
2000041323 女 是 70—79 良 已 
2000041324 男 不 是 70—79 不 及 格 未 
2000041325 男 不 是 70—79 Ë 未 
2000041326 女 是 60 一 69 优 已 
2000041327 男 是 60 一 69 良 已 
































我 们 先 计算 训练 集 的 全 部 信息 量 。 
entropy( 就 业 情 况 ) = entropy(14, 8) 王 一 14/22log:(14/22) 一 8/22log:(8/22) 
一 0.945 663 64 

接着 ,需要 计算 每 个 属性 的 信息 增益 比 , 以 属性 “性 别 ? 为 例 。 
entropy( 男 ) 二 entropy(10, 7)= —10/17log; (10/17) —7/17log,(7/17)=0. 977 394 12 
entropy( £) =entropy(4, 1)=—4/5log:(4/5)—1/5log:(1/5)=0. 721 928 09 

由 公式 有 

entropy (HE3) = (17/22) Xentropy( 男 ) 十 (5/22) Xentropy( 女 ) =0. 919 351 97 

求 出 这 种 划分 的 信息 增益 。 

gain( 性 别 )=entropy( 就 业 情 况 ) 一 entropy( 性 别 ) 王 0.026 308 33 

再 根据 公式 求 出 在 该 属性 上 的 分 裂 信息 。 

split_IInfo( E|) = —17/22X log, (17/22) —5/22X log: (55/22) =0. 773 226 67 

最 后 求 出 在 该 属性 上 的 增益 比 。 

gain_ratio( 学 生 干 部 ) =0. 41171446, gain_ratio( 综 合成 绩 ) =0. 088 391 08, 

gain_ratio( 毕 业 成 绩 ) 王 0. 101 671 58 

由 上 述 计算 结果 可 知 * 学 生 干 部 "在 属性 中 具有 最 大 的 信息 增益 比 , 取 * 学 生 干 部 "为 


根 属性 ,引出 一 个 分 支 ,样本 按 此 划分 。 对 引出 的 每 一 个 分 支 再 用 此 分 类 法 进行 分 类 ,再 
引出 分 支 ,最 后 所 构造 出 的 判定 树 如 图 4-8 所 示 。 





图 4-8 构造 出 的 判定 树 


4.8 C4.5 算法 源 程序 分 析 


#include "iostream.h" 
#incluge "stdlib.h" 
#include "stdio.h" 
#include "iostresm.h" 
#include "stdio.h" 
#include "stdlib.h" 
#include "math.h" 
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anst int Æ 4; //aata 中 条 件 属性 的 个 数 
anst int G= 3; //ceta 中 类 的 个 数 

anst int CN= 150; //ordata rh FE X BJ 4" 8 
anst int N= 120; // 测 试 集 中 样本 的 个 数 
const int MiX= 200; /人 条件 属性 取 值 的 最 大 值 
anst int CE 2; // 运 行 20 次 求 平均 值 


dable ordata[CN] [A+ 2]= { 
1,5.1,3.5,1.4,0.2,1, 
2,4.9,3.0,1.4,0.2,1, 
3,4.7,3.2,1.3,0.2,1, 
4,4.6,3.1,1.5,0.2,1, 
5,5.0,3.6,1.4,0.2,1, 
6,5.4,3.9,1.7,0.4,1, 
1,4.6,3.4,1.4,0.3,1, 
8,5.0,3.4,1.5,0.2,1, 
9,4.4,2.9,1.4,0.2,1, 
10,4.9,3.1,1.5,0.1,1, 
11,5.4,3.7,1.5,0.2,1, 
12,4.8,3.4,1.6,0.2,1, 
13,4.8,3.0,1.4,0.1,1, 
14,4.3,3.0,1.1,0.1,1, 
15,5.8,4.0,1.2,0.2,1, 
16,5.7,4.4,1.5,0.4,1, 
17,5.4,3.9,1.3,0.4,1, 
18,5.1,3.5,1.4,0.3,1, 
19,5.7,3.8,1.7,0.3,1, 
20,5.1,3.8,1.5,0.3,1, 
21,5.4,3.4,1.7,0.2,1, 
22,5.1,3.7,1.5,0.4,1, 
23,4.6,3.6,1.0,0.2,1, 
24,5.1,3.3,1.7,0.5,1, 
25,4.8,3.4,1.9,0.2,1, 
26,5.0,3.0,1.6,0.2,1, 
27,5.0,3.4,1.6,0.4,1, 
28,5.2,3.5,1.5,0.2,1, 
29,5.2,3.4,1.4,0.2,1, 
30,4.7,3.2,1.6,0.2,1, 
31,4.8,3.1,1.6,0.2,1, 
32,5.4,3.4,1.5,0.4,1, 
,5.2,4.1,1.5,0.1,1, 
34,5.5,4.2,1.4,0.2,1, 
35,4.9,3.1,1.5,0.1,1, 


3,S.03.2,1.2,0.2,1, 
375.53.51.3⁄0.21, 
38,4.9,3.1,1.5,0.1,1, 
39,4.4,3.0,1.3,0.2,1, 
40,5.1,3.4,1.5,0.2,1, 





41,5.0,3.5,1.3,0.3,1, 
42,4.5,2.3,1.3,0.3,1, 
43,4.4,3.2,1.3,0.2,1, 
44,5.0,3.5,1.6,0.6,1, 
45,5.1,3.8,1.9,0.4,1, 
46,4.8,3.0,1.4,0.3,1, 
47,5.1,3.8,1.6,0.2,1, 
48,4.6,3.2,1.4,0.2,1, 
49,5.3,3.7,1.5,0.2,1, 
50,5.0,3.3,1.4,0.2,1, 
51770,3:24.41:4;2, 
52,6.4,3.2,4.5,1.5,2, 
53,6.9,3.1,4.9,1.5,2, 
54,5.5,2.3,4.0,1.3,2, 
55,6.5,2.8,4.6,1.5,2, 
56,5.7,2.8,4.5,1.3,2, 
57,6.3,3.3,4.7,1.6,2, 
58,4.9,2.4,3.3,1.0,2, 
59,6.6,2.9,4.6,1.3,2, 
@,5.2,2.7,3.9,1.4,2, 
@,5.0,2.0,3.5,1.0,2, 
@,5.9,3.0,4.2,1.5,2, 
63,6.0,2.2,4.0,1.0,2, 
@,6.1,2.9,4.7,1.4,2, 
6,5.6,2.9,3.6,1.3,2, 
6,6.7,3.1,4.4,1.4,2, 
@,5.6,3.0,4.5,1.5,2, 
@,5.8,2.7,4.1,1.0,2, 
@,6.2,2.2,4.5,1.5,2, 
70,5.6,2.5,3.9,1.1,2, 
1,5.9,3.2,4.8,1.8,2, 
T2,6.1,2.8,4.0,1.3,2, 
73,6.3,2.5,4.9,1.5,2, 
%,6.1,2.8,4.7,1.2,2, 
75,6.4,2.9,4.3,1.3,2, 
76,6.6,3.0,4.4,1.4,2, 
77,6.8,2.8,4.8,1.4,2, 
78,6.7,3.0,5.0,1.7,2, 
79,6.0,2.9,4.5,1.5,2, 
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8,5.7,2.63.5,1.0,2, 
81,5.52.4.3.8.1.1,2, 


82,5.5,2.4,3.7,1.0,2, 
83,5.8,2.7,3.9,1.2,2, 
84,6.0,2.7,5.1,1.6,2, 
85,5.4,3.0,4.5,1.5,2, 
86,6.0,3.4,4.5,1.6,2, 
87,6.7,3.1,4.7,1.5,2, 
88,6.3,2.3,4.4,1.3,2, 
89,5.6,3.0,4.1,1.3,2, 
%,5.5,2.5,4.0,1.3,2, 
91,5.5,2.6,4.4,1.2,2, 
2,6.1,3.0,4.6,1.4,2, 
93,5.8,2.6,4.0,1.2,2, 
94,5.0,2.3,3.3,1.0,2, 
%,5.6,2.7,4.2,1.3,2, 
%,5.7,3.0,4.2,1.2,2, 
91,5.7,2.9,4.2,1.3,2, 
%,6.2,2.9,4.3,1.3,2, 
99,5.1,2.5,3.0,1.1,2, 
100,5.7,2.8,4.1,1.3,2, 
101,6.3,3.3,6.0,2.5,3, 
102,5.8,2.7,5.1,1.9,3, 
103,7.1,3.0,5.9,2.1,3, 
104,6.3,2.9,5.6,1.8,3, 
105,6.5,3.0,5.8,2.2,3, 
106,7.6,3.0,6.6,2.1,3, 
107,4.9,2.5,4.5,1.7,3, 
108,7.3,2.9,6.3,1.8,3, 
109,6.7,2.5,5.8,1.8,3, 
110,7.2,3.6,6.1,2.5,3, 
111,6.5,3.2,5.1,2.0,3, 
112,6.4,2.7,5.3,1.9,3, 
113,6.8,3.0,5.5,2.1,3, 
114,5.7,2.5,5.0,2.0,3, 
115,5.8,2.8,5.1,2.4,3, 
116,6.4,3.2,5.3,2.3,3, 





117,6.5,3.0,5.5,1.8,3, 
118,7.7,3.8,6.7,2.2,3, 
119,7.7,2.6,6.9,2.3,3, 
120,6.0,2.2,5.0,1.5,3, 
121,6.9,3.2,5.7,2.3,3, 
122,5.6,2.8,4.9,2.0,3, 
123,7.7,2.8,6.7,2.0,3, 


124,6.3,2.7,4.9,1.8,3, 
125,6.7,3:3⁄5.7/2.1,3, 
126,7.2,3.2,6.0,1.8,3, 





i 
128,6.1,3.0,4.9,1.8,3, 
129,6.4,2.8,5.6,2.1,3, 
130,7.2,3.0,5.8,1.6,3, 
131,7.4,2.8,6.1,1.9,3, 
12,7.9,3.8,6.4,2.0,3, 
133,6.4,2.8,5.6,2.2,3, 
134,6.3,2.8,5.1,1.5,3, 
135,6.1,2.6,5.6,1.4,3, 
136,7.7,3.0,6.1,2.3,3, 
137,6.3,3.4,5.6,2.4,3, 
138,6.4,3.1,5.5,1.8,3, 
139,6.0,3.0,4.8,1.8,3, 
140,6.9,3.1,5.4,2.1,3, 
141,6.7,3.1,5.6,2.4,3, 
142,6.9,3.1,5.1,2.3,3, 
143,5.8,2.7,5.1,1.9,3, 
144,6.8,3.2,5.9,2.3,3, 
145,6.7,3.3,5.7,2.5,3, 
146,6.7,3.0,5.2,2.3,3, 
147,6.3,2.5,5.0,1.9,3, 
148,6.5,3.0,5.2,2.0,3, 
149,6.2,3.4,5.4,2.3,3, 


150,5.9,3.0,5.1,1.8,3 
J; 

dable data [N] [A+ 2]; // 训 练 集 

doble test [QF N] [A+ 2]; // 测 试 集 

dable rule[N] [A 2]; // 规 则 集 

int Ho= 0; // 规 则 集中 规则 的 个 数 
int attrum[A]; /各 个 属性 取 值 的 个 数 
//int i3i,jj3; 

Axxxxxxxxxx 统 计 各 属性 取 值 的 个 数 x%xxxxxxxxxxx/ 
// 初 始 化 

/¥ 

for(iii=0;iii< Miiit+) 

{ 


attmm[iii]=1; 
sort (cordata [0] [0],CN iii+ 1); 
for Üjj=1;33)<N;jjj++) 
{ 
if (ordata[jjj] [iii+ 1]— ordataDjj- 1] [iii+ 1]) continue; 
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else attrum[iii]++ ; 
} 
cout<< attrum[iii]<< endl; 


int leaf; 

dable cla; 

int att[A]; 

dable attvalue [A]; 

int i; 

doable nextvalue MAX]; 
Struct node * next [MX] ; 


] * Tree; 


int næ 0; 


void cut (dable * a,int n); 


void sort (double * a,int nint n); 
Struct node * root(); 


/标志 , 叶子 为 1 否则 为 中 间 节 点 , 取 值 为 0 
// 如 果 是 叶子 节点 ,就 表示 决策 类 的 值 

/已 确 定 的 条 件 属性 1 为 已 确定 , 0 为 未 确定 
/已 确定 的 条 件 属性 的 取 值 , 初始 值 为 -1 

// 当 前 进行 分 支 的 条 件 属性 号 (0~A- 1) 
/当前 条 件 属性 的 取 值 

/| 指向 前 条 件 属性 取 值 的 下 一 级 


/人 输出 数组 a, EH n 行 ,对 2 列 
// 对 数组 a 根据 第 n 列 进行 排序 
/| 生成 根 节点 


daile gainratio(chible * dyint nint 引 ;// 求 有 n 个 样本 的 数据 集 d 的 属性 a 的 信息 增益 率 
strmuct node * aqpympde(stnrt mè * a,struct mè * Dj/ 拷贝 a 节点 的 数据 到 b 节 点 


int isleaf (struct node * p); 
void nextnode (struct node * p); 


void cutnode (struct node * p); 
void outTree (struct node * p); 
int nodemaxi (struct node * p); 


/函数 声明 


void main() 
{ 
int i,j,K; 
int bz1,bz2; 
int reco[CX]; 
int camotreœo [CX]; 
int recoerr[CX]; 
dable recoratio[CX]; 
dable cennotrecoratio[CX]; 
dable reœerrratio[CX]; 


/判断 节点 p 是 否 为 叶子 节点 

/根据 当前 节点 生成 孩子 节点 ,返回 值 为 0 表示 都 是 
/叶子 节点 ,为 1 表示 还 存在 孩子 节点 

/人 输出 节点 了 

JAR hH) p NR 

IRTA ph i 


/人 能 正确 识别 的 样本 个 数 
// 拒 绝 识别 
/人 错误 识别 
/能 正确 识别 的 样本 个 数 
// 拒 绝 识别 
/错误 识别 


dable nodenmiber[cx; // 节 点 个 数 


dable averagereco= 0; / 厚 均 正确 识别 率 
dable averagecamotreco= 0; / 厚 均 拒绝 识别 率 
dable averagerecoerr= 0; /平均 错误 识别 率 
dable averagerule= 0; / 厚 均 规则 个 数 
dable averagenodenimiber= 0; / 厚 均 节点 个 数 
int c; 


for (c= 0;c< X;c++ ) 
{ 
reco[c]= 0; 
recoerr[c]= 0; 
Cannotreco[c]= 0; 
} 
xxxxxxxxxxx 统 计 各 属性 取 值 的 个 数 X¥#%%%%%%% 关 / 
// 初 始 化 
for (i= 0;i< Mit+) 
{ 
attnm[i]=1; 
sort (&ordata[0] [0] ,ON,i+ 1); 
// at (sordata[0] [0] ,cN) ; 
for(F 1;j< N;j++ ) 
{ 
if (ordata[j] [ 计 了 一 ordata[- 1] [i+ 1]) continue; 
else attnum[i]++ ; 
1 


// cout<< attrum[i]<< endl; 


i 


for (c= 0;c< CX;c++ ) 


noe 0; 
Hr=0; 
int 1=0; 


[多头 尖 关 关 关 尖 关 尖 关 关 关 关 关 关 闪闪 半生 成 训练 集 关 关 关 关 关 关 关 关 关 关 关头 关 关 关 关 关 关 关 / 


int a[CN]; /标志 
for (i= 0;i< CN;i++) 
a[lil=0; // 标 志 初 始 化 为 0 


for(i=0;1i<N;i++) 
{ 
k=rand()% GN; 
if(a[k|=0) // 该 随机 产生 的 样本 尚未 被 选中 
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// 该 样本 记 入 data i] 
for 9= 0;3j< A+ 2;j++) 

data [i] [j]= ordata[k] [j]; 
/标记 alrand0% 150] 为 1 


a[k]=1; 
J 
else // 该 随机 产生 的 样本 已 经 被 选中 
{ 

k=rand0% CN; 

/继续 产生 下 一 个 随机 数 , 直到 对 应 样本 未 被 选中 

while(a[k]= 1) 

{ 

=rand()% CN; 
l 


// 该 样本 记 入 datali] 
for(G=0;j< 对 27j++) 

data[i] D]=ordata[k] [j]; 
// 标 记 atrand0)% 150] 为 1 
a[k]=1; 


诬 尖 关 关 关 关 关 关 关 关 关 关 关 关 关 关 # 关 叶 成 测 | 试 信 关 闪闪 关 关 关 关 关 关 关 关 关 关 关 关 关头 关 / 
k= 0; 
for (i= 0;i< AF- N;i++ ) 
{ 
while(a[k]= 1) 
f 
k++; 
} 
for(F0;j<AMt 2;j++ ) 
test [i] [j]= ordata[k] [j]; 


Er 


for (i= 0;i< N;i++ ) 
if(data[i][A+1]==2) 
Trè 
// out<<"aaaa— "<< 1<<endl; 
for (i= 0;i< N;i++ ) 
data[i] [0]= i+ 1; 
for (i= 0;i< AF- N;i++ ) 


test[i] [0]= i+ 1; 
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//for ü= 0;i< Nit+) 
//oout<< i<< ":"<< gainratio (&ordata[0] [0],CN,i)<< endl; 
Tree= root () ; 

nextnode (Tree); 

aut (data [0] [0] ,N) ; 
cout<< endl; 

cout<< endl; 

cout<< endl; 

cout<< endl; 

cout<< endl; 

out (&test [0] [0] ,CN- N); 
//outnode (Tree); 
cutTree (Tree); 
//out<< Hx< endl; 


for(i=0;i<QF N;it+) 
{ 
bz2=1; JERU HIER 


for j= 0;)<kb;j++) 
{ 
bz]=1; LRA J VE Bu 
for (= 0;k<A;k++ ) 
{ 
if ((test[i] [k+ 1]== nue[j] [k+ 1]) | | (tmleD] [k+ l= 0)) bzl=bzlx 1; 
else {bzl= bzlx 0;break;) 


if((bzl==1)&&(test[i] [A 1]=ruleD)] [A+ 1])) (reco[c]++ ; bz2= 0;break;) 
if ((zl= )&&(test[i][A+1]!=rule[3j][A+1])) {reooerr[c]++ ;bz2= 0;break; } 
} 
if(bz2=1) (cannotreco[c]++ ;) 


nodenumiber[c]= (Gouble)nodeny 


Tecoratio[c]= (double) reco[c]/ (dable) (QF N) ; 


Tecoerrratio[c]= (dable) reooerr[c]/ (doble) CN 


cannotrecoratio[c]= (double) cannotreoo[c]/ (double) (QF N); 


cout<< 'WK Ë :"<< cx< endl; 


cout<< "recog- right:"<< (double) reco[c]/ (doble) CN N) << endl; 
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cout<< "recog- worng:"<< (double) reccerr [c] / (doble) (ON- N) << endl; 


cout<< "recog- cannot:"<< (double) camotreoo[c]/ (double) (QF N) << endl; 
cout<< "nodenmber:"<< noden<< endl; 


averageruler averagerulet kb; 


for (c= O; O; ) 

{ 
averagerecor averagerecor recoratio[c]; 
averagerecoerT= averagerecoerr+ recoerrratio[c]; 
averagecannotreoo= averagecannotrecor cannotreooratio[c]; 
averagenodenmiber= averagenodenmiber+ noderunter[c]; 


averagereccr averagereco/ (double)Cx7 
averagereooerr= averagerecoerr/ (double)Cx7 
averagecannotreccr averagecannotreco/ (double) CX; 
averagenodeninber= averagencdenmiber/ (double) CX; 
cout<< "average reoog- right:"<< averagereox< endl; 
Cout<< "average reoog- wrong:"<< averagerecoerr<< endl; 
Cout<< "average ITecogr cannot: "<< saveragecannotreco<< endl; 
Cout<< "average nodenmiber:"<< averagenoderunber<< endl; 
cout<< "averagerule:"<< averagerule/CX<< endl; 
// out(&test[0][0]),CN-N); 
// cout<<ON-NK<< endl; 
// aut (sordata[0] [0] ,cN) ; 


// cout<<endl; 
// out(sdata[o] [0],N) ; 


cout<< "sss"<< endl; 


void cut (dable * a,int n) 
t 
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void sort (dable *a,int mnvint n)// 对 数组 a 根据 第 n 列 进行 排序 


{ 


int ij; 

for (i=0;i<n;i++) 

{ 
//cout<<a[ix (A+2)]<<","; 
//oout<<alix (tI)+At1]<<","; 


for = 0;j< Br 2;j++) 
{ 
cout<<a[ix (A+2)+3]<<','; 
) 
cout<< endl; 


int i=0,j=0,k= 0; 
dable aa; 


k= 0; 
for(i=0;i< A+ 2;i++) 
{ 
if(n!=i) k++; 

1 
if(k==A+2) 
{ 

cout<< " 恢 据 错误 的 属性 序号 进行 排序 "<<enal; 


exit (0); 


for(i=0;i<nmmitt+) 
I 
Fi; 
kEi; 
while(j< nm) 
{ 
ifaDx @+2)+n]<a[k* (&+2)+n]) 
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for G= 0;3< A+ 2;j++) 


t 
as=a[ix (At2)+j]; 
a[ix @r2)+3j]=a[k* @+2)+3]; 
a[k* (+2)+j]=aa; 
上’ 
} 
} 
struct node * root () /| 生成 根 节点 


{ 
struct node * I=new node; 
nodent+; 
int i; 
int k; // 慰 志 
dable gainr [A]; 
int maxi= 0; 


dable m= 0; 


// 如 果 训 练 集 为 空 , 则 直接 返回 空 
if N==0) reum (NID); 
/判断 训练 集 是 否 只 含有 一 个 类 
k= 0; 
for (i= 1;i<N;i+t+) 
{ 
if(data[i] [A 1]!= data[0] [A+ 1]) (k= 1;break;) 
else continuey 
} 
// 如 果 标 志 二 =1, 就 表示 不 止 一 个 类 
if(k==0) 
{ 
r-> 1eaf= 0; 
xr—> clæ data[0] [A+ 1]; 


} 

else 

{ 
r-> leaf= 0; 
r> cla= 0; 


for (i= 0;i< A;i++) 
{ 
r->att[i]=0; 
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r—->attvalue[i]=- 1; 
} 
// 计 算 每 个 未 确定 条 件 属性 的 信息 增益 比 
for(i=0;i<Bit+) 
{ 
ginr[i]= 0; 
if(r->att[i]=1) ontine; 
gainr [i]=gainratio(&data[0] [0], N, i); 
if(gainr[i]>mex) fnaxi= i;mex=gainr[i];) 
}/hrexi 记录 信息 增益 比 最 大 的 属性 (0~3) 
r-> i=maxi; 
) 
retum (r); 


dable gainratio (double * dyint nint a)// 求 有 n 个 样本 的 数据 集 a 的 属性 a 的 信息 增 


// 益 率 
{ 
sort (d,n,a) ; 
int i,j,k,n,s; 
dable sp= 0; // 属 性 a f ñ N 
dable E0; IRRE Z BJ 8 
dable E= 0; // 属 性 a BJ 2 8 
double El= 0; 
/Aalue 数 组 记录 属性 a 的 各 个 取 值 
//double * value=new dable (attrum[a]) ; 
//mm 数 组 记录 决策 类 各 个 取 值 的 个 数 
int rum[C]; 


Apanan R 决 策 类 ponen / 
sort (d,n,A+ 1); 
i=0; 
k=1; 
for(} j< wj+H ) 
{ 
if(d[j* @+2)+Ar1]==d[i* (&+2)+A+1]) kr+ ; 
else 
{ 
EI- (doble)W (dable)n* log((dable)k/ (Gouble)n); 
1=J; 


k=1; 
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EI (Coble)W (dable)n* log((doble)k/ (Goiblejn)7 
//out<< "I= "<< I<< endl; 
克 xX% 关 X 关 关 关 关 关 X 关 %% 关 xx%# 求 属性 a 的 炉 和 条 件 炉 xxxxx%% XX/ 
sort (d,n,a+ 1); 
i=0; 
k=1; 
for(= lj njt+) 
{ 


if(dDj* t+2)+at1]=—=d[li* (At2)+at1]) {kt+; ontinue;} 
else 
{ 
s= Pp- (Couble)k/ (double)n* log( (double)k/ (daile) n) ; NN 
for (m= 0mK C;mr+ ) rum[m]= 0; 
for(s=i;s< j;st+) 
{ 
for (m= 0;m< C;mr+ ) 
{ 
if(d[s* (ht 2)+At1]== (dable) m+ 1)) mm[m]++ ; 


|. 
El=0; 
for (m= 0;m< C;mr+ ) 
{ 
if ( (dable)nm{fm]/ (dable)k== 0) contirue; 


El=El- (dable)rımfm]/ (duble)k* log((dable)ramfm]/ (dable) k); 
Ueik] 
} 
E= E+ (doxble)k/ (double)n* El; 


i=j; 
k=1; 


} 
sp= sp (double)ly (Gouble)n* 1og( (dable)k/ (dable)n); 


for (m= O; C;mt+ ) num[m]= 0; 


for(s=i;s<j;s++) 
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for (m= 0;m< C;mr+ ) 

t 
if(d[s* (A+2)+A+1]= (dable) mr 1)) mm[m]++ ; 
// break; 


] 
El= 0; 
for (m= 0;m< C;mr+ ) 
{ 
if( (double)nmfn]/ (double)k= 0) ontinue; 


EIEI- (dable)nmi]/ (dable)k* log( (dhle)nmfnl/ ale); /条 件 炉 
E=E+ (dable)k/ (double)n* El; 


// cout<< "E= "<< E<< endl; 
// out<< "g= "< sp<< endl; 


ux xx x%%%%%x%%x%% 求 属性 a H PHD nennennennennee / 
证 (so== 0) return(- 10000); 


retum((I- E)/sp); 


struct node# copynode (struct node *a,struct nod *b)// 找 贝 a 节点 的 数据 到 b 节 
/点 , 非 完全 拷贝 , 后 三 项 
// 重 新 赋 初 值 





int i; 

b-> leaf= a-> leaf; 

b-> cla=a-> cla; 

for (i= 0;i< A;it+) 

{ 
b->att[i]=a->att[i]; 
b-> attvalue[i]=a-> attvalue [i]; 

} 

b->i=0; 

for (i= 0;1<MDW;i++) 

{ 
b-> nextvalue[i]=0; 
b- next [i]= NULL; 

} 

tump); 
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void nextnode (struct node * p)// 根 据 当 前 节点 生成 孩子 节点 , 返回 非 叶 子 节点 的 个 数 
{ 
int notleaE- 0; 
sort (gcata[o] [0] ,N,0); 
int i,j,k; 
int js 
Struct node * q; 
// dable gainr[A]; 
// int maxi=0; 
// dable m= 0; 
Jovene E 成 当前 数组 Gx 
dable * d; 
int bz [N]; 
int ny //a 中 样本 的 个 数 
for(i=0;i<N;i++) bz[iJ=1; // 等 于 1 为 满足 节点 p 的 样本 
for(i=0;i< Bit+) 
{ 
if to-> att[i]==0) continuey 
for(F 0;3< N;j++ ) 
t 
if (datalj] [i+ 1] !=p->attvalue[i]) 
bzD]=bzD]* 0; 


) 
r= 0; 
for (i= 0;i< N;i+t+ ) 
{ 
ifbz[i]=1) m+; 
) 
// cout<< "aaaaaaaaan"<< n<< endl; 
Fnew double[nx (A+2)]; 
k= 0; 
for (i= 0;i<n;i++) 
{ 
while((bz[k]== 0)&& (k< N)) k++ ; 
/ out<< k<< endl; 
for (j= 0;j< Rr 2;j++ ) 
{ 
dii» (A+ 2)+ 3j]=data[k] D]; 


kH; 
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// atam); 

//o0ut<< "aaaaaaaaaaaaaan:"<< n<< endl; 
忆 xx%x%xxxxx¥ 生 成 孩子 节点 x%x#xxxxxxxxx/ 
sort (&3[0],n, (> i)+ 1); 

// oat<<"p>i:x<p>i<<endl]; 


k=0; 
js O; // 计 数 器 清 堆 
for(i=0;i<n;it+) 
{ 
if(d[i* (&+2)+ @->i)+1]==d[k* (&+2)+ (@->i)+1]) continuey 
Fnew node; 
nodent+ ; 
= ogpynode p,q; 


q>att[p->i]= 1; 
q> attvalue[p-> i]=d[k* (A+ 2)+ (p-> i)+1]; 
P-> nextvalue[jsq]=d[k* (A+ 2)+ (p-> i)+1]; 
p> next [jsq]=q; 
js; 
Ei; 
} 
// 最 后 一 个 孩子 节点 
FF new node; 
nodent+; 
F opynoce (p,q); 
q>att[p->i]=1; 
q> attvalue[p->i]=d[k%* (at2)+ @->i)+1]; 
p-> nextvalue[jsq]=d[k* @+2)+ p-> i)+1]; 
p-> next )sq]=q; 
jst; 
p> nextvalue[jsq]= - 1; 
/标志 叶子 节点 
// out<< "jsq:"<< jsqk<endl; 
for (i= 0;i< jsgri++) 
{ 
/ cout<< i<< endl; 
if(isleaf (p-> next[i])!=0) 
{ 
p->next[i]-> leaf= 1; 
p> next [i] > cla= isleaf (p-> next [i]); 
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// if(p->nextvalue[i]=- 1) break; 
Dotleaf++ ; 
// 计 算 每 个 未 确定 条 件 属性 的 信息 增益 比 


p->next[i]-> i= nodemexi (p-> next [i]); 


Hs: Cout<< "aaaaaaaaa"<< endl; 
nextnode (p-> nest [i]); 
} 
} 
//retum(notleaf); 


} 


int isleaf (struct node * p) /判断 节点 p 是 否 为 叶子 节点 ， 若 结果 为 “ 否 " 返 回 0, 若 结果 为 


/ 
/ 


/ 


/让 是 ”返回 决策 类 的 值 


sort (&jata[0] [0] ,N,0) ; 

int i,j,k; 

int js 

struct node * q; 

Awana ukku kuk HE 成 当前 数组 kocowayxakuaxaxaka / 
dable * d; 

int bz [N]; 

int n; //a 中 样本 的 个 数 

forli= 0;i<N;it+) bzli]Ü=1; // 等 于 1 为 满足 节点 p 的 样本 


for (i= 0;i< A;i++) 


{ 
if(p->att[i]== 0) omtinve; 
for(j= 0;j<N;j++) 
f 
if(datalj] [i+ 1] !=p-> attvalue[i]) 
bz[j]=bz[j]* 0; 
} 
} 
w0; 


for(i=0;i<N;i++ ) 


{ 
证 oz 上 一 1]) m+; 
} 
cout<< "n"<< n<< endl; 


dnew dable[n* (at2)]7 
E00; 


/ 


for (i= 0;i< n;i++ ) 
t 
while((pz[k] = 0)&&(k<N)) k++; 
oout<< k<< endl; 
for (j= 0;j< A+ 2;j++) 
{ 
d[i* Qt 2)+j]=dta[k] [j]; 
} 
ktt; 


for(i=1;i<n;i++) 
{ 
证 Qix (+ 2)+A+1]!=d[0* (A+2)+A+1]) retum(0) ; 
} 
p> cla= (int)d[0* (A+ 2)+ A+ 1]; 
retum((int)d[0%* (A+2)+A+1]); 


void cutnode (struct node * D)// 输 出 节点 p 


{ 


int i; 

cout<< "p-> 1eaf:"<< p-> leaf<< endl; 
cout<< "p-> cla:"<< p-> cla<< endl; 
out<<" att: "; 


for (i= 0;i< A;i+t+) 


{ 

Cout<< j<< "Nt"; 
) 
oout<< endl; 


Cout<<" att[i]: "; 
for (i= 0;i< A;i+t+) 
{ 
cout<<p-> att[i]<< "Nt"; 
} 
cout<< endl; 
cout<< "attvalue: "; 


for(i=0;i<A;i++) 


t 

cout<<p-> attvalue[i]<< "Nt"; 
} 
cout<< endl; 


cout<< "p-> i:"<< p-> i<< endl; 
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cout<<" next [i] : "<< endl; 


i=0; 
while(p-> nextvalue[i] i= 1) 
{ 
cout<< p->nextvalue[i]<< "Nt"<< isleaf (p-> next [i])<< endl;; 


ite 


void outTree (struct node * p) // 输 出 树 
š 


int i; 


if (isleaf (p) != 0) /是 叶子 
{ 
for(i=0;i< A;i++) 
/ Oout<< p-> attvalue[i] * p-> att[i]<< "Nt"; 
// cout<<p->cla<<endl; 
A 记 xxxxx¥ 写 人 规则 集 x¥x#xx#/ 
rule [tb] [0]=kb; 
for(i=0;i<A;i+t+) 
{ 
rule[bb][ 计 J]=Pr>attvalue[i]x* p->att[i]; 
) 
rule[rb] B+ 1]=p-> cla; 


bott; 


else // 是 中 间 节 点 


i=0; 
while (p-> nextvalue[i] !=- 1) 
f 

utTree(p-> next [i]); 


i+; 


int nodanaxi (struct node * p) // 求 节点 ph i 
{ 
int ntleaf=0; 
sort (sdata[0] [0] ,N,0) ; 
irt i,j,k; 
//int jsq; 
//struct node * q; 
dable gainr [A]; 
int naxi=- 1; 
dable w=- 1; 


Jonnnennenenee HE 成 当前 数组 Gexxxxxxxxxxxx%/ 


dable * d; 
int bz [N]; 
int n; //a 中 样本 的 个 数 


for( 二 0;i<N;it+) bz[iJ=1; // 等 于 1 为 满足 节点 p 的 样本 


for(i=0;i< Bit+) 


{ 
if(p->att[i]==0) oontinue; 
for G= 0;3<N;j++ ) 
í 
if (data[j] [i+ 1] !=p-> attvalue[i]) 
bzD]=bzD]# 0; 
} 
} 
r= 0; 


for (i= 0;i< N;i++ ) 
{ 
if(z[i]=1) m+; 


//out<< "n"<< n<< endl; 
Fnew double[nx (A+2)]; 
k= 0; 
for (i= 0;i<n;i++) 
{ 
while((bz[k]==0)&&(k<N)) k++ ; 
//osut<< k<< endl; 
for( 0;j< Æ 2;j++ ) 
I 
dix (A+ 2)+ 3j]=data[k] D]; 


kH; 











gg — aa — V p 

















if{p->att[j]=—1) omtinve; 


gainr[j]= gainratio 


// 证 gainrD]< 






pj); 


ntinue; 









if(gainr[j]>max) {n jma 
jasi 记 录 信 息 增 益 比 最 大 的 属性 


nexi<<endl; 








/ 


retum (maxi); 


) 





运行 结果 如 图 49 一 图 4-14 所 示 





图 4-9 
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决策 树 分 类 算法 
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图 4-14 C4. 5 算法 运行 结果 6 


4.9 C4.5 算法 的 特点 及 应 用 
4.9.1 C4.5 算法 特点 
的 优点 是 : 产生 的 分 类 规则 易于 理 角 


法 的 缺点 是 : 在 构造 树 的 过 程 中 ,需要 对 数据 集 进 行 多 次 的 顺序 扫描 和 排 
序 , 因 而 导致 算法 效率 较 低 








4.9.2 C4.5 算法 应 用 


1. C4.5 算法 在 保险 客户 流失 分 析 中 的 应 用 


随 着 我 国 改革 开放 的 深入 ,保险 市 场 在 逐步 对 外 开放 ,保险 市 场 的 竞争 更 加 激烈 。 客 
户 是 保险 公司 生存 和 发 展 的 根基 ,而 吸引 客户 ,保持 客户 、 避 免 客户 流失 是 保险 公司 提高 
竞争 力 的 关键 。 数 据 挖掘 在 保险 领域 有 着 广泛 的 应 用 ,通过 挖掘 ,可 发 现 购买 某 一 保险 险 
种 的 客户 的 特征 ,从 而 可 以 向 那些 具有 同样 特征 却 没有 购买 该 保险 险种 的 客户 进行 推销 ; 
还 可 找到 流失 客户 的 特征 ,在 那些 具有 相似 特征 的 客户 还 未 流失 之 前 ,采取 针对 性 的 措施 
避免 客户 的 流失 。 利 用 数据 挖掘 中 的 面向 属性 归纳 和 分 类 决策 树 C4. 5 算法 ,对 保险 公 
司 的 客户 基本 信息 进行 分 析 , 找 出 客户 流失 的 特征 ,可 以 帮助 保险 公司 有 针对 性 地 改善 

















可 
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户 关系 ,避免 客户 流失 。 
2. C4.5 算法 在 高 校 教学 决策 支持 中 的 应 用 


随 着 我 国 高 等 教育 的 发 展 ,各 高 校 的 招生 规模 不 断 扩大 ,教育 模式 也 不 断 更 新 ,使 用 
基于 校园 网 的 教学 管理 系统 ,实现 了 信息 化 、 网 络 化 的 教学 ,但 同时 也 积累 了 大 量 的 数据 ， 
如 何 从 这 些 数据 中 挖掘 出 有 价值 的 信息 ,为 学 校 教学 决策 提供 参考 依据 ,是 各 高 校 面 临 的 
问题 。 决 策 树 C4. 5 算法 可 以 从 学 校 积 累 的 数据 中 进行 有 效 分 类 ,实现 根据 现 有 数据 来 
预测 未 来 的 发 展 趋势 ,例如 可 以 通过 C4. 5 对 学 生成 绩 进行 分 析 , 找 出 影响 学 生成 绩 的 原 
,提出 相应 的 解决 策略 ,更 好 地 指导 教学 。 


3. C4.5 算法 在 网 络 入 侵 检测 中 的 应 用 


随 着 计算 机 网 络 技术 的 迅猛 发 展 和 广泛 应 用 ,从 网 络 资源 中 获得 共享 信息 已 经 成 为 
了 人 们 日 常生 活 中 必 不 可 少 的 方式 之 一 。 与 此 同时 ,人 们 也 不 得 不 面 对 由 于 入 侵 而 引发 
的 一 系列 网 络 安全 问题 的 困扰 。 传 统 的 防火 墙 技术 已 经 难以 单独 保障 网 络 的 安全 , 入侵 
检测 作为 防火 墙 技术 的 补充 开始 发 挥 出 不 可 替代 的 作用 。 入 侵 检测 是 一 种 通过 实时 监测 
目标 系统 来 发 现 人 侵 攻击 行为 的 安全 技术 。 当 前 的 大 多 数 入 侵 检测 系统 采用 基于 规则 的 
简单 模式 匹配 技术 ,它们 存在 计算 量 大 、 误 报 漏 报 率 高 等 缺点 。 针 对 这 些 不 足 ,以 决策 树 
方法 作为 描述 模型 ,实现 决策 树 C4. 5 算法 ,使 用 训练 集 构建 分 类 树 来 实现 对 入 侵 行为 的 
检测 。 决 策 树 算法 具有 构造 速度 快 .分 类 精度 高 .检测 速率 快 以 及 良好 的 自 适应 和 自学 习 
等 特点 ,适合 用 于 攻击 检测 中 。 















































4.10 小 结 


本 章 内 容 是 决策 树 基本 算法 ,决策 树 分 类 算法 通常 分 为 两 个 步骤 : 决策 树 生 成 和 决 
策 树 修剪 。 重 点 介绍 了 两 种 决策 树 分 类 算法 : ID3 算法 和 C4. 5 ik. À B Y EN 
的 原理 ,C4. 5 算法 的 核心 思想 与 ID3 完全 一 样 。 总 结 了 它们 的 优点 与 缺陷 ,并 佐 以 实例 
和 程序 。 最 后 简单 介绍 了 它们 的 应 用 。 


思考 题 





1. 连续 属性 如 何 离散 化 ? 请 用 ID3 算法 或 C4. 5 算法 举例 说 明 。 
2. 结合 实例 ,应 用 C4. 5 算法 挖掘 决策 树 ,并 与 ID3 算法 比较 结果 。 
3. 决策 树 算法 的 过 拟 合 问题 如 何 解决 ? 

4. 决策 树 算法 的 实质 是 什么 ? 
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第 5 章 贝 叶 斯 分 类 算法 


5.1 基本 概念 
5.1.1 主观 概率 


贝 叶 斯 方法 是 一 种 研究 不 确定 性 的 推理 方法 。 不 确定 性 常用 贝 叶 斯 概率 表示 , 它 是 
一 种 主观 概率 。 通 常 的 经 典 概率 代表 事件 的 物理 特性 ,是 不 随 人 意识 变化 的 客观 存在 。 
而 贝 叶 斯 概率 则 是 人 的 认识 ,是 个 人 主观 的 估计 , 随 个 人 主观 认识 的 变化 而 变化 。 例 如 事 
件 的 贝 叶 斯 概率 只 指 个 人 对 该 事件 的 置信 程度 ,因此 是 一 种 主观 概率 。 

投掷 硬币 可 能 出 现 正 反面 两 种 情形 ,经 典 概率 代表 硬币 正面 朝 上 的 概率 ,这 是 一 个 客 
观 存在 ;而 贝 叶 斯 概率 则 指 个 人 相信 硬币 会 正面 朝 上 的 程度 。 

同样 的 例子 还 有 ,一 个 企业 家 认为 "一 项 新 产品 在 未 来 市 场 上 销售 "的 概率 是 0. 8 ,这 
里 的 0. 8 是 根据 他 多 年 的 经 验 和 当时 的 一 些 市 场 信息 综合 而 成 的 个 人 信念 。 

一 个 投资 者 认为 “购买 某 种 股票 能 获得 高 收益 ”的 概率 是 0. 6, 这 里 的 0. 6 是 投资 者 
根据 自己 多 年 股票 生意 经 验 和 当时 股票 行情 综合 而 成 的 个 人 信念 。 

贝 叶 斯 概率 是 主观 的 ,对 其 估计 取决 于 先 验 知识 的 正确 性 和 后 验 知识 的 丰富 和 准确 
度 。 因 此 贝 叶 斯 概率 常常 可 能 随 个 人 掌握 信息 的 不 同 而 发 生变 化 。 

对 即将 进行 的 羽毛 球 单打 比赛 结果 进行 预测 ,不 同人 对 胜 负 的 主观 预测 都 不 同 。 如 
果 对 两 人 的 情况 和 各 种 现场 的 分 析 一 无 所 知 ,就 会 认为 两 者 的 胜 负 比 例 为 1 : 1; 如 果 知 
道 其 中 一 人 为 本 届 奥 运 会 羽毛 球 单打 冠军 ,而 另 一 人 只 是 某 省 队 新 队员 , 则 可 能 给 出 的 概 
率 是 奥运 会 冠军 和 省 队 队员 的 胜 负 比 例 为 3 : 1; 如 果 进 一 步 知 道 奥运 冠军 刚好 在 前 一 场 
比赛 中 受过 伤 , 则 对 他 们 胜 负 比 例 的 主观 预测 可 能 会 下 调 为 2 : 1。 所 有 的 预测 推断 都 是 
主观 的 ,基于 后 验 知识 的 一 种 判断 ,取决 于 对 各 种 信息 的 掌握 。 

经 典 概率 方法 强调 客观 存在 , 它 认 为 不 确定 性 是 客观 存在 的 。 在 同样 的 羽毛 球 单 
打 比 赛 预 测 中 ,从 经 典 概率 的 角度 看 ,如 果 认 为 胜 负 比 例 为 1 : 1, 则 意味 着 在 相同 的 条 
件 下 ,如 果 两 人 进行 100 场 比赛 ,其 中 一 人 可 能 会 取得 50 场 的 胜利 ,同时 丢掉 另外 
50 场 。 

主观 概率 不 像 经 典 概率 那样 强调 多 次 重复 ,因此 在 许多 不 可 能 出 现 重复 事件 的 场 
合 能 得 到 很 好 的 应 用 。 上 面 提 到 的 企业 家 对 未 来 产品 的 预测 ,投资 者 对 股票 是 否 能 取 
得 高 收益 的 预测 以 及 羽毛 球 比赛 胜 负 的 预测 中 ,都 不 可 能 进行 重复 的 实验 ,因此 ,利用 
主观 概率 ,按照 个 人 对 事件 的 相信 程度 而 对 事件 做 出 推断 是 一 种 很 合理 且 易 于 解释 的 
法 。 
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5.1.2 贝 叶 斯 定理 


1. 基础 知识 


OD 已 知事 件 A 发 生 的 条 件 下 ,事件 也 发 生 的 概率 , 叫 作 事件 B 在 事件 A 发 生 下 的 
条 件 概率 , 记 为 PCB|A) ,其 中 PCA) 叫 作 先 验 概率 ,PCB|A) 叫 作 后 验 概率 ,计算 条 件 概 
率 的 公式 为 





P(ANB) 


P(B|A)= P(A) (5-1) 
条 件 概率 公式 通过 变形 得 到 乘法 公式 为 
P(A N B)= P(B|A)P(A) (5-2) 


(2) 设 A,B 为 两 个 随机 事件 ,如 果 有 P(AB)==P(A)P(B) 成 立 , 则 称 事件 A MB 
相互 独立 。 此 时 有 P(A|B)=P(A),P(AB)=P(A)P(B) 成 立 。 
设 Al,As,…, An 为 n 个 随机 事件 ,如 果 对 其 中 任意 m <mn) RE A 
A, A, ,都 有 
P(A; A, A, )= P(A DP (Ap) P(A, ) 6-3) 
成 立 , 则 称 事件 A Aste An 相互 独立 。 


(3) 设 Bi1,B,,…,B， 为 互 不 相 容 事件 ,PCB,)>>0,i=1,2,… 必 , 且 品 Bi 一 0, 对 任意 
的 事件 AC U B ,计算 事件 A 概率 的 公式 为 


P(A)= >)P(B,)P(A|B,) (5-4) 
i=1 


设 Bi ,B:,…',B, 为 互 不 相 容 事件 ,P(B;) >0,i=1,2, n, P(A)>0, WER A 
发 生 的 条 件 下 ,事件 B; 发 生 的 概率 为 
P(BA) P(B)P(A|B,) 
P(A) 





P(B:;|A) (5-5) 





六 PCB)PCAIBN) 
则 称 该 公式 为 贝 叶 斯 公式 。 
2. 贝 叶 斯 决策 准则 


假设 Q= {CC Cn) EA m 个 不 同类 别 的 集合 ,特征 向 量 XX 是 d 维 向 量 ， 
P(X|C;) 是 特征 向 量 X 在 类 别 C; 状态 下 的 条 件 概率 ,P(C;) 为 类 别 C; 的 先 验 概率 。 根 
据 前 面 所 述 的 贝 叶 斯 公式 ,后 验 概率 PCG | 关 ) 的 计算 公式 为 


PiX |C) 


Pr C; |Xy= POO 





P (C;) (5-6) 


其 中 P(X)= PXP). 
贝 叶 斯 决策 准则 为 : 如 果 对 于 任意 Aj BA P(Ci|X) 之 PCCi|X) 成 立 , 则 样本 模 

















贝 叶 斯 分 类 算法 


式 关 被 判定 为 类 别 Ci。 
3. 极 大 后 验 假设 


根据 贝 叶 斯 公式 可 得 到 一 种 计算 后 验 概率 的 方法 : 在 一 定 假设 的 条 件 下 ,根据 先 验 
概率 和 统计 样本 数据 得 到 的 概率 ,可 以 得 到 后 验 概率 。 

S P(c) 是 假设 c 的 先 验 概率 , 它 表示 < 是 正确 假设 的 概率 ,P(X) 表 示 的 是 训练 样本 
X 的 先 验 概率 ,P(X|c) 表 示 在 假设 c 正确 的 条 件 下 样本 X 发 生 或 出 现 的 概率 ,根据 贝 叶 
斯 公式 可 以 得 到 后 验 概率 的 计算 公式 为 


P(e|X)= PCX|c)P(c) 


P(X) 
设 C 为 类 别 集合 也 就 是 待 选 假设 集合 ,在 给 定 未 知 类 别 标号 样本 X hh. ulit at 
到 可 能 性 最 大 的 假设 c € C, 具 有 最 大 可 能 性 的 假设 或 类 别 被 称 为 极 大 后 验 假设 


(maximum a posteriori) , 记 作 Cmap o 


(5-7) 


Cmap = argmaxP (c|x)= argmar P OX OP (e) (5-8) 
CEC CEC P(X) 


由 于 P(X) 与 假设 c 无 关 , 故 上 式 可 变 为 
Cmap = argmaxP (X|c)P (c) (5-9) 
当 没有 给 定 类 别 概率 的 情形 下 ,可 做 一 个 简单 的 假定 。 假 设 C 中 每 个 假设 都 有 相等 的 先 
验 概率 ,也 就 是 对 于 任意 的 c,crEC(i 径 ), 都 有 P(c)=P(Cc) ,再 做 进一步 简化 ,只 需 
计算 P(X|c) 找 到 使 之 达到 最 大 的 假设 。P (X|c) 被 称 为 极 大 似 然 假设 (maximum 
likelihood) , 记 为 cm。 
cml 一 argmaxP (X|c) (5-10) 


5.2 贝 中 斯 分 类 算法 原理 
5. 2.1 朴素 贝 叶 斯 分 类 模型 


贝 叶 斯 分 类 器 诸多 算法 中 朴素 贝 叶 斯 分 类 模型 是 最 早 的 。 它 的 算法 逻辑 简单 ,构造 
的 朴素 贝 叶 斯 分 类 模型 结构 也 比较 简单 ,运算 速度 比 同类 算法 快 很 多 ,分 类 所 需 的 时 间 也 
比较 短 ,并 且 大 多 数 情况 下 分 类 精度 也 比较 高 ,因而 在 实际 中 得 到 了 广泛 的 应 用 。 该 分 类 
器 有 一 个 朴素 的 假定 : 以 属性 的 类 条 件 独 立 性 假设 为 前 提 , 即 在 给 定 类 别 状态 的 条 件 下 ， 
属性 之 间 是 相互 独立 的 。 朴 素 贝 叶 斯 分 类 器 的 结构 示意 图 如 图 5-1 所 示 。 

假设 样本 空间 有 mm 个 类 别 {C1 C... C, ,数据 集 有 个 属性 A1,A,,… ,A,, 给 定 
一 未 知 类 别 的 样本 XS (zz ,zx,) ,其 中 z, 表示 第 i 个 属性 的 取 值 , 即 z, € A;, 则 可 
用 贝 叶 斯 公式 计算 样本 站 二 (x1,x2，… ,zs) 属 于 类 别 Ci(1<k<m) 的 概率 。 由 贝 叶 斯 公 


RA PG |= PCO ALO sp (C )PCX|C), 即 要 得 到 PCC:|X) 的 值 ,关键 是 


要 计算 P(x|C, )#I P C). SCH X 所属 的 类 别 标签 ,由 贝 叶 斯 分 类 准则 ,如果 对 
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图 5-1 朴素 贝 叶 斯 分 类 器 的 结构 示意 图 


于 任意 ij 都 有 P(C: 18) 之 PCC;|X) 成 立 , 则 把 未 知 类 别 的 样本 于 指派 给 类 别 Ci, 贝 
叶 斯 分 类 器 的 计算 模型 为 

V(X)= argmaxP (C;)P (X |C;) (5-11) 
由 朴素 贝 叶 斯 分 类 器 的 属性 独立 性 假设 ,假设 各 属性 z (i 二 1,2,…，,n) 间 相互 类 条 件 独 


立 , 则 





P(x|C,)= [[P(=,|C;) (5-12) 
k=1 





F 是 式 (5-11) 被 修改 为 
V(X)= argmaxP (Ci) [[ P (z, |C) (5-13) 
X k=l 


P(C; ) 为 先 验 概 率 , 可 通过 P(C) =d:/d 计算 得 到 ,其 中 d, 是 属于 类 别 C: 的 训练 样本 的 
个 数 ;d 是 训练 样本 的 总 数 。 若 属性 A 是 离散 的 , 则 概率 可 由 P(z,|C = da /d, 计算 得 
到 ,其 中 di 是 训练 样本 集合 中 属于 类 C; 并 且 属 性 A 取 值 为 zx 的 样本 个 数 ,di 是 属于 类 
C, 的 训练 样本 个 数 。 朴 素 贝 叶 斯 分 类 的 工作 过 程 如 下 : 

(1) 用 一 个 维特 征 向 量 半 = (zi ,xs，,… ,zx, ) 来 表示 数据 样本 ,描述 样本 六 对 nn 个 属 
性 Ali,As，…,A， 的 量度 。 

(2) 假定 样本 空间 有 m 个 类 别 状态 C1,C;，,…,C,, 对 于 给 定 的 一 个 未 知 类 别 标号 的 
数据 样本 XX, 分 类 算法 将 半 判 定 为 具有 最 高 后 验 概率 的 类 别 , 也 就 是 说 ,朴素 贝 叶 斯 分 类 
算法 将 未 知 类 别 的 样本 X 分 配给 类 别 Ci, 当 且 仅 当 对 于 任意 的 九 始 终 有 P (C. |X)> 
P(C |X) 成 立 ,1<i<m,1<j<<m,j 了 i。 使 P(C;|X) 取 得 最 大 值 的 类 别 C, 被 称 为 最 大 
后 验 假定 。 

(3) 由 于 P(X) 不 依赖 类 别 状态 ,对 于 所 有 类 别 都 是 常数 , 故 根据 贝 叶 斯 定理 ,最 大 
化 P(C:|X) 只 需要 最 大 化 P(X|C:D)P(C:) 即 可 。 如 果 类 的 先 验 概率 未 知 , 则 通常 假设 
这 些 类 别 的 概率 是 相等 的 , 即 P(C)=P(C:)=…=P(CC。) ,所 以 只 需要 最 大 化 
P(X|C;) 即 可 ,否则 就 要 最 大 化 P(X|Ci)P(C;)。 其 中 可 用 频率 S,/S 对 P(C;) 进 行 估 
计 计 算 ,S; 是 给 定 类 别 C, 中 训练 样本 的 个 数 ;S 是 训练 样本 (实例 空间 ) 的 总 数 。 

(4) 当 实例 空间 中 训练 样本 的 属性 较 多 时 ,计算 P(X|C;) 可 能 会 比较 费时 ,开销 较 
大 ,此 时 可 以 做 类 条 件 独 立 性 的 假定 : 在 给 定 样本 类 别 标号 的 条 件 下 ,假定 属性 值 是 相互 


条 件 独立 的 ,属性 之 间 不 存在 任何 依赖 关系 , 则 下 面 等 式 成 立 : P(X|C;) = Tieta |C). 
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其 中 概率 PC(z CD) ,P(xzs|C),…,P(z,|G;) 的 计算 可 由 样本 空间 中 的 训练 样本 进行 估 
计 。 实 际 问题 中 根据 样本 属性 A, 的 离散 连续 性 质 ,考虑 下 面 两 种 情形 : 
。 如 果 属 性 A 是 连续 的 , 则 一 般 假 定 它 服从 正 态 分 布 ,从 而 来 计算 类 条 件 概率 。 
。 如 果 属 性 A, 是 离散 的 , 则 PCze|C;)= Sa/S;, 其 中 Sa 是 在 实例 空间 中 类 别 为 C; 
的 样本 中 属性 As 上 取 值 为 zx 的 训练 样本 个 数 ,而 S, 是 属于 类 别 C; 的 训练 样本 
个 数 。 

G) 对 于 未 知 类 别 的 样本 X, 对 每 个 类 别 C; 分 别 计算 已 CX|C:)P(C:) 。 样 本 瑟 被 认 
为 属于 类 别 C, HARA P (x|C;)P (C)>P(X|C;)P (C, ),1Si<m,1<;j<m,j=i, 
也 就 是 说 样本 X KIRE P (x |CP (Ci) 取 得 最 大 值 的 类 别 C;。 

朴素 贝 叶 斯 分 类 模型 的 算法 描述 如 下 : 

(1) 对 训练 样本 数据 集 和 测试 样本 数据 集 进行 离散 化 处 理 和 缺失 值 处 理 。 

(2) 扫描 训练 样本 数据 集 , 分 别 统计 训练 集中 类 别 C; 的 个 数 d, 和 属于 类 别 C; 的 样 
本 中 属性 A 取 值 为 zx 的 实例 样本 个 数 di ,构成 统计 表 。 

(3) 计算 先 验 概率 P(C;) 二 di/d MERER P (A= a: |C;)= 二 di/di, 构 成 概率 表 。 

(4) 构建 分 类 模型 V(X) =argmaxP (CP (X|C,) , 

(5) 扫描 待 分 类 的 样本 数据 集 ,调用 已 得 到 的 统计 表 、 概 率 表 以 及 构建 好 的 分 类 准 
则 ,得 出 分 类 结果 。 





5.2.2 贝 叶 斯 信念 网 络 


朴素 贝 叶 斯 分 类 器 的 条 件 独立 假设 似乎 太 严 格 了 ,特别 是 对 那些 属性 之 间 有 一 定 相 
关 性 的 分 类 问题 。 下 面 介绍 一 种 更 灵活 的 类 条 件 概率 P(X|Y) 的 建 模 方法 。 该 方法 不 
要 求 给 定 类 的 所 有 属性 条 件 独立 ,而 是 允许 指定 哪些 属性 条 件 独立 。 


1， 模 型 表示 


贝 叶 斯 信念 网 络 (Bayesian Belief Networks, BBN) ,简称 贝 叶 斯 网 络 , 用 图 形 表 示 一 
组 随机 变量 之 间 的 概率 关系 。 贝 叶 斯 网 络 有 以 下 两 个 主要 成 分 ， 

(1) 一 个 有 向 无 环 图 (Directed Acyclic Graph, DAG) ,表示 变量 之 间 的 依赖 关系 。 

(2) 一 个 概率 表 , 把 各 节点 和 它 的 直接 父 节 点 关联 起 来 。 

考虑 三 个 随机 变量 A、B 和 C, 其 中 A 和 了 相互 独立 ,并 且 都 直接 影响 第 三 个 变量 C, 
三 个 变量 之 间 的 关系 可 以 用 图 5-2(a) 中 的 有 向 无 环 图 概括 。 图 中 每 个 节点 表示 一 个 变 
量 , 每 条 弧 表 示 变 量 之 间 的 依赖 关系 。 如 果 从 和 到 Y 有 一 条 有 向 弧 , 则 X 是 Y 的 父母 ,Y 
J: X 的 子女 。 另 外 ,如 果 网 络 中 存在 一 条 从 X 到 2Z 的 有 向 路 径 , 则 X 是 2 的 祖先 ,而 Z 
是 X 的 后 代 。 例 如 ,在 图 5-2(b) 中 ,A 是 D 的 后 代 ,D 是 B 的 祖先 ,而 且 BAD 都 不 是 
A 的 后 代 节点 。 贝 叶 斯 网 络 的 重要 性 质 是 : 贝 叶 斯 网 络 中 的 一 个 节点 ,如 果 它 的 父母 节 
点 已 知 , 则 它 条 件 独立 于 它 所 有 的 非 后 代 节 点 。 图 5-2(b) 中 给 定 C.A 条 件 独立 于 B 和 
D, 因 为 B 和 D 都 是 A 的 非 后 代 节点 。 朴 素 贝 叶 斯 分 类 器 中 的 条 件 独立 假设 也 可 以 用 贝 
叶 斯 网 络 来 表示 。 如 图 5-2(c) 所 示 , 其 中 Y 是 目标 类 , {Xi,X,,… ,Xs } 是 属性 集 。 
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图 5-2 贝 叶 斯 信念 网 络 


在 贝 叶 斯 信念 网 中 ,除了 网 络 拓扑 结构 要 求 的 条 件 独立 性 外 ,每 个 节点 还 关联 一 个 概 
率 表 。 如 果 节 点 X 没有 父母 节点 , 则 表 中 只 包含 先 验 概率 P(X) 。 如 果 节 点 X 只 有 一 个 
父母 节点 Y, 则 表 中 包含 条 件 概率 P(X|Y)。 如 果 节 点 X 有 多 个 父母 节点 
(Yi ,YY ，…Y}, 则 表 中 包含 条 件 概率 P(XIYi,Yz，… ,Ye)。 

如 图 5-3 所 示 是 贝 叶 斯 网 络 的 一 个 例子 ,对 心脏 病 或 心口 痛 患 者 建 模 。 假 设 图 中 
每 个 变量 都 是 二 值 的 。 心 脏 病 节点 (HD) 的 父母 节点 对 应 于 影响 该 疾病 的 危险 因素 ， 
例如 锻炼 (E) 和 饮食 (D) 等 。 心 脏 病 节点 的 子 节点 对 应 于 该 病 的 症状 ,如 胸痛 (CP) 和 
高 血压 (BP) 等。 如 图 5-3 所 示 , 心 口 痛 (HB) 可 能 源 于 不 健康 的 饮食 ,同时 又 可 能 导致 























































































































胸痛 。 
Eyes D- 健 康 
0.7 0.25 
HD=yes 

" = HB=yes 

b ai 025 ia 

E=yes 0.85 

D- 不 健康 0.45 

E=no 

D- 健 康 | 055 

E=no CP= 

D= 不 健康 0.75 yes 
0.8 

BP= 高 

HD=yes 0.85 0.6 

HD=no 02 
0.4 
0.1 

图 5-3 发 现 心脏 病 和 心口 痛 病 人 的 贝 叶 斯 网 
影响 疾病 的 危险 因素 对 应 的 节点 只 包含 先 验 概率 ,而 心脏 病 、 心 口 痛 以 及 它们 的 相 


应 症状 所 对 应 的 节点 都 包含 条 件 概率 。 为 了 节省 空间 ,图 中 省 略 了 一 些 概率 。 注 意 
P(X=z)=1—P(X=z),P(X=z|Y)=1—P(X=+=|Y),#Rh z 表示 与 xz 相反 的 结 
果 。 因 此 ,省 略 的 概率 可 以 很 容易 求 得 。 例 如 ,条 件 概率 
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P( 心 脏 病 = no| 锻 炼 = no, 饮 食 = 健康 )=1 一 P( 心 脏 病 = yes | 锻炼 = no, 饮 食 = 健康 ) 
=]1— 0.55 
一 0.45 





2. 模型 建立 


贝 叶 斯 网 络 的 建 模 包括 两 个 步骤 : 创建 网 络 结构 以 及 估计 每 一 个 节点 的 概率 表 中 的 
概率 值 。 网 络 拓扑 结构 可 以 通过 对 主观 的 领域 专家 知识 编码 获得 ,算法 5. 1 给 出 了 归纳 
贝 叶 斯 网 络 拓扑 结构 的 一 个 系统 过 程 。 

算法 5.1 贝 叶 斯 网 络 拓扑 结构 的 生成 算法 。 

(D 设 T= (Xi,Xs，,…,Xa) 表 示 变 量 的 一 个 总 体 次 序 。 

(2) FOR j=1 to d DO。 

O 令 Xr 0) 表示 了 中 第 /个 次 序 最 高 的 变量 。 

(4) 令 x(Xr()))=={X1,X,…,Xr(j 一 1) ) 表 示 排 在 Xr() 前 面 的 变量 的 集合 。 

(5) 从 x(Xr(j)) 中 去 掉 对 X; 没有 影响 的 变量 (使 用 先 验 知识 ) 。 

(6) 在 Xr(j) 和 x (Xr(j) ) 中 剩余 的 变量 之 间 画 弧 。 

(7) END FOR, 

我 们 以 图 5. 3 为 例 解释 上 述 步骤 ,执行 步骤 (1) 后 , 设 变 量 次 序 为 (E,D,HD,HB， 
CP,BP) ,从 变量 忆 开 始 , 经 过 步骤 (2) 一 (7), 得 到 以 下 条 件 概率 : 

。P(CD|E) 化 简 为 PCD)。 

。P(HD|E,D) 不 能 化 简 。 

。P(HB|HD,E,D) 化 简 为 P(HB|D)。 

。P(CP|HB,HD,E,D) 化 简 为 P(CP|HB,HD)。 

。P(BP|CP,HB,HD,E,D) 化 简 为 P (BP|HD)。 

基于 以 上 条 件 概 率 ,创建 节点 之 间 的 弧 (E,HD)、(D,HD)、(D,HB)、 (HD,CP)、 
(HB,CP) 和 (HD,BP)。 这 些 弧 构成 了 如 图 5-3 所 示 的 网 络 结构 。 

算法 5.1 保证 生成 的 拓扑 结构 不 包括 环 。 这 一 点 的 证 明 也 很 简单 。 如 果 存 在 环 ， 
那么 至 少 有 一 条 弧 从 低 序 节点 指向 高 序 节点 ,并 且 至 少 存在 另 一 条 弧 从 高 序 节点 指向 
低 序 节点 。 由 于 算法 5. 1 不 允许 从 低 序 节点 到 高 序 节点 的 弧 存 在 ,因此 拓扑 结构 中 不 
存在 环 。 

然而 ,如 果 对 变量 采用 不 同 的 排序 方案 ,得 到 的 网 络 拓扑 结构 可 能 会 有 变化 。 某 些 拓 
扑 结构 可 能 质量 很 差 ,因为 它 在 不 同 的 节点 对 之 间 产 生 了 很 多 条 弧 。 从 理论 上 讲 , 可 能 需 
要 检查 所 有 d! 种 可 能 的 排序 才能 确定 最 佳 的 拓扑 结构 ,这 是 一 项 计算 开销 很 大 的 任务 。 
一 种 替代 的 方法 是 把 变量 分 为 原因 变量 和 结果 变量 ,然后 从 各 原因 变量 向 其 对 应 的 结果 
变量 画 弧 。 这 种 方法 简化 了 贝 叶 斯 网 络 结构 的 建立 。 一 旦 找到 了 合适 的 拓扑 结构 ,与 各 
节点 关联 的 概率 表 就 确定 了 。 对 这 些 概率 的 估计 比较 容易 , 与 朴素 贝 叶 斯 分 类 器 中 所 用 
的 方法 类 似 。 
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5.3 贝 叶 斯 算法 实例 分 析 
5.3.1 朴素 贝 叶 斯 分 类 器 


【 例 5.1】 应 用 朴素 贝 叶 斯 分 类 器 来 解决 这 样 一 个 分 类 问题 : 根据 天 气 状 况 来 判断 
某 天 是 否 适合 打 网 球 。 给 定 如 表 5-1 所 示 的 14 个 训练 实例 ,其 中 每 一 天 由 属性 outlook， 
temperature, humidity ,windy 来 表征 ,类 属性 为 play tennis, 


表 5-1 14 个 训练 实例 















































day outlook temperature humidity windy play tennis 
1 sunny hot high weal no 
Ë sunny hot high strong no 
3 overcast hot high weal yes 
4 rain mild high weal yes 
5 rain cool normal weal yes 
6 rain cool normal strong no 
7 overcast cool normal strong yes 
8 sunny mild high weal no 
9 sunny cool normal weal yes 
10 rain mild normal weak yes 
11 sunny mild normal strong yes 
12 overcast mild high strong yes 
13 overcast hot normal weak yes 
14 rain mild high strong no 

















现 有 一 测试 实例 +>; <outlook = sunny, temperature = cool, humidity = high, windy = 
strong 之 , 问 这 一 天 是 否 适合 打 网 球 ? 显然 ,我 们 的 © 
任务 就 是 要 预测 此 新 实例 的 类 属性 play tennis 的 取 
值 (yes 或 no), 为 此 ,我 们 构建 了 如 图 5-4 所 示 的 朴 
素 贝 叶 斯 网 络 分 类 器 。 
图 中 的 类 节点 C 表示 类 属性 play tennis, 其 他 
4 个 节点 A Az As Ai 分 别 代表 4 个 属性 outlook, © © 2 © 
temperature, humidity, windy, 类 节点 C 是 所 有 属 图 5 4 朴素 贝 叶 斯 分 类 器 的 结构 
性 节点 的 父亲 节点 ,属性 节点 和 属性 节点 之 间 没 有 
任何 的 依赖 关系 。 根 据 公 式 有 
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V(x)= argmax P (c)P (sunny|c)P (cool |c)P (high|e)P (strong |c) 

c€ Ces,n0} 
为 计算 V(z)， 需要 从 如 表 5-1 所 示 的 14 个 训练 实例 中 估计 出 概率 。 
P(yes),P(sunny|yes),P(cool| yes),P(high|yes),P(strong|yes),P(no)， 


P(sunny|no),P(cool|no),P(high|no),P(strong|no), 
具体 的 计算 如 下 : 


所 以 有 


Pl(yes)= 9/14 
P(sunny|yes)= 2/9 
P (cool|yes) = 3/9 
P (high | yes) = 3/9 


P (strong | yes) = 3/9 


P(no)= 5/14 

P (sunny |no)= 3/5 
P(cool|no)= 1/5 
P (high |no)= 4/5 
P (strong|no)= 3/5 


P(yes)P (sunny | yes) P (cool | yes) P (high | yes) P (strong | yes) = 0. 005 291 
P(no)P (sunny | no) P (cool | no) P (high | no) P (strong | no) = 0. 020 570 4 
可 见 , 朴 素 贝 叶 斯 分 类 器 将 此 实例 分 类 为 no。 


【 例 5. 2】 


应 用 朴素 贝 叶 斯 分 类 器 来 解决 这 样 一 个 分 类 问题 : 给 出 一 个 商场 顾客 数 


据 库 (训练 样本 集合 ) ,判断 某 一 顾客 是 否 会 买 电 脑 。 给 定 如 表 5-2 所 示 的 15 个 训练 实 
例 ,其 中 每 个 实例 由 属性 age.income.student.credit rating 来 表征 ,样本 集合 的 类 别 属性 
J buy computer, 该 属性 有 两 个 不 同 的 取 值 , 即 {yes,no), 因 此 就 有 两 个 不 同 的 类 别 
(m 二 2)。 设 C, 对 应 yes 类 别 ,C: 对 应 no 类 别 。 


表 5-2 15 个 训练 实例 


























age income student credit rating buy computer 
<30 high no fair no 
<30 high no excellent no 
31…40 high no fair yes 
>40 medium no fair yes 
>40 low yes fair yes 
>40 low yes excellent no 
31…40 low yes excellent yes 
<30 medium no fair no 
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续 表 
age income student credit rating buy computer 
<30 low yes fair yes 
>40 medium yes fair yes 
<30 medium yes excellent yes 
31…40 medium no excellent yes 
31…40 high yes fair yes 
>40 medium no excellent no 














现 有 一 测试 实例 x: (age< = 30.income= medium, student = yes, credit rating = 
fair) , 问 : 这 一 实例 是 否 会 买 电脑 ? 我 们 的 任务 是 要 判断 给 定 的 测试 实例 是 属于 C, 还 
Æ Czo 
根据 公式 有 
V(z)= argmaxP(c)P(age 有 30|c)P(medium|c)P(yes|c)P(fair 


cE 《yesyno } 
为 计算 V(x) ,我 们 计算 每 个 类 的 先 验 概率 PC). 
P(Ci): P(buy computer = 'yes')= 9/14 = 0.643 





;) 


P (buy computer = "no') = 5/14 = 0. 357 
为 计算 P(X|C;),i=1、2, 计 算 下 面 的 条 件 概率 。 
Page = '< 30'|buy computer = 'yes') = 2/9 = 0.222 
P(age = ' < 30'| buy computer = 'no') = 3/5 = 0. 6 
P (income = 'medium'|buy computer = 'yes') = 4/9 = 0.444 
P (income = 'medium'| buy computer = 'no') = 2/5 = 0.4 
P (student = 'yes'| buy computer = 'yes') = 6/9 = 0.667 
P (student = 'yes'| buy computer = 'no')= 1/5 = 0.2 
P (credit rating = fair|buy computer = 'yes') = 6/9 = 0.667 
P (credit rating = 'fair'|buy computer = 'no') = 2/5 = 0.4 
X = (age < 30.income = medium, student = yes,credit rating = fair) 
P(X|C;): P(X |buy computer = 'yes') = 0. 222 X 0. 444 X 0. 667 X 0. 667 = 0. 044 
P(X |buy computer = "no')= 0. 6 X 0.4 X 0.2 X 0.4 = 0.019 





P(X 





C,)* P(C:): P (X |buy computer = 'yes')* P (buy computer = 'yes') = 0. 028 
P (X | buy computer = 'no') * P (buy computer = mo') = 0. 007 


因此 ,对 于 样本 X, 朴 素 贝 叶 斯 分 类 预测 buy computer='yes', 





5.3.2 BBN 


使 用 如 图 5-3 所 示 的 BBN 来 诊断 一 个 人 是 否 患 有 心脏 病 。 下 面 阐释 在 不 同 的 情况 
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下 如 何 做 出 诊断 。 

情况 一 : 没有 先 验 信息 。 

在 没有 任何 先 验 信息 的 情况 下 ,可 以 通过 计算 先 验 概率 P(HD=yes) 和 P(HD= 


no) 来 确定 一 个 病人 是 否 可 能 患 心脏 病 。 为 了 表述 方便 , 设 a € {yes,no) 表 示 锻 炼 的 两 个 
值 ,BE ! 健康, 不 健康 } 表 示 饮 食 的 两 个 值 。 


P(HD = yes)= > >)P(HD= yes |E = a.D = p)P (E 
a B 








a'D= p) 
=), X P(HD = yes| E = a,D = p)P (E 
. R 








a)P(D = $) 
=0.25X 0.7 X0.25+ 0.45 X 0.7 X 0.75 


十 0.55X0.3X0.25 十 0.75X0.3X0.75 
一 0. 49 
因为 P(HD=no)=1 








P(HD= yes) 


= 


0. 51, 所 以 ,此 人 不 得 心脏 病 的 概率 略微 大 
情况 二 : 高 血压 。 


如 果 一 个 人 有 高 血压 ,可 以 通过 比较 后 验 概率 P(HD= yes|BP= 高 ) 和 P(HD=no| 
BP= 高 ) 来 诊断 他 是 否 患 有 心脏 病 。 为 此 ,必须 先 计算 P(BP= 高 )。 


P(BP = 高 )= J) P (BP = ë|HD =7)P(HD=7) 
y 








=0.85 X 0. 49 + 0.20 X 0.51 = 0.5185 
其 中 YE {yes,no)}。 因 此 ,此 人 患 心 脏 病 的 后 验 概率 是 


P = = š = Ë 
P(HD = yes|BP = 88 )= P (BE BI es HD yes) 
_0.85X0.49 _ ; 
= = 0.8033 





同 理 ,P(HD= no|BP= 高 ) 











1 一 P(HD=yes|BP= 高 )=1 
一 个 人 有 高 血压 时 ,他 患 心 脏 病 的 危险 就 增加 了 。 


情况 三 : 高 血压 ,饮食 健康 经常 锻炼 身体 。 
假设 得 知 此 人 经 常 锻炼 身体 并 且 饮 食 健康 。 加 上 这 些 新 信息 ,此 人 患 心脏 病 的 后 验 
概率 为 


0. 8033=0. 1967。 因 此 , 当 





P(HD = yes|BP = 高,D = 健康 ,E = yes) 
[= 高 |HD = yes, D = 健康 ,E 1) 

















P(BP = 高 ID = 健康 ,E = yes) 

X P(HD = yes|D = 健康 ,E = yes) 

P(BP = Ñ | HD = yes) P(HD = yes|D = 健康 ,已 = yes) 
27 P (BP = Ñ |HD = yP (HD = y|D = 健康 ,E = yes) 
# 














0.85 X 0.25 - 
0.85 x0.25+0.2x0.75 — O: 5862 
而 此 人 不 患 心脏 病 的 概率 是 
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P(HD = no|BP = 高 ,D = 健康 ,E 


yes) 








1— PHD yes |BP A.D = 健康 ,E = yes) 





一 1 一 0.5862 = 0. 4138 


因此 模型 暗示 健康 的 饮食 和 有 规律 的 体育 锻炼 可 以 降低 患 心脏 病 的 危险 。 


5.4 贝 叶 斯 算法 源 程序 分 析 
朴素 贝 叶 斯 分 类 
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//bys.qp : 定义 控制 台 应 用 程序 的 入 口 点 


#/include "stdafx.h" 


#/include< iostrean> 

#/include< fstrean> 

#/include< string> 

#/include< Vector> 

#/include<map> 

using namespace std; 

Vectorc string> split (onst strings src,oonst strings delimiter); 


void rejudoe()7 
Vector< vector< string> > vect; 
map< string, int> category; 
nepx string,double> pro mep; 
int main() 
t 
string strLine; 
ifstresm readfile ('weather.txt"); 
if (!readfile) 
{ 
cout<< "Fail to open file weather!"< < endl; 
cout<< getchar () ; 
retum 0; 


cout<< " 读 取 原始 数据 如 下 "<< ena; 
Vector< vector< string> > ::size type st x; 
Vector< string> ::size type st y; 

vector< string> teip vect; 

yhile (getline (readfile,strlins)) 


/根据 定 界 符 分 离 字 符 串 
/重新 判断 原 输入 数据 的 类 别 
// 二 维 容器 

// 存 放 类 别 

// 存 放 各 种 概率 的 nap 容 器 


/打开 文件 失败 ! 


// 二 维 容器 x 坐标 
// 二 维 容器 y 坐 标 


/全 行 一 行 读 取 数据 


cout<< strLine< < endl; 
tep vect= plit (strline,","); // 调 用 分 隔 函 数 分 隔 一 行 字符 串 
vect push back (tanp vect); /里 入 二 维 容 器 
tep vect.clear(); // 清 空 容 器 
) 
string tenp string; // 临 时 字符 串 
Vectorc string> ::size type tep sizel=vect.size()- 1; /总 行 数 
Vectorc string> ::size type tep size2=vect[0] .size(); /总 列 数 


for(st_x=1;st x<tenp sizel+ l;st x++) 
LAR — E 8 BH 6 FRh28 9]. 8 kE | 类 别 的 个 数 ,以 便 后 面 的 
// 慨 率 的 计算 冕 过 第 一 行 的 属性 标题 ) 


for (st. y= 0;st_ y< tep size2;st yr+) 
{ 
if(st_y!=tep size2-1) // 处 理 每 一 行 前 面 的 属性 ,统计 属性 | 类 别 的 个 数 
{ 
tep string vect [0] [st y]+ "= "+ vect[st_x] [st_y]+ "| "+ 
vect [0] [tenp _size2- 1]+ "= "+ vect[st_x] [tenp size2- 1]; 
pro nep[tenp string]+ + ; // 计 数 加 1 
} 
else /处 理 每 一 行 的 类 别 ,统计 类 别 的 个 数 
{ 
tap string vect[0] [tap size2- 1]+ "= "+ vect st. x] [tep size>- 1]; 
pro map[tenp _string]+ +; // 计 数 加 1 
Category [vect [st x] [temp size2- 1]]= 1; 
// 还 没有 类 别 , 则 加 入 新 的 类 别 


tep string.erase(); 


} 
string: :size type st; 
cout<< 哟 计 过 程 如 下 :"<<endl; 
for map string, double> ::iterator it=pro map.begin(); 轩 往 条 使 概 羡 ) 属 性 14 类别 ) 
{ 

out<<it- > first< < ":"< < it- > seonk < endl; 

if ((st=it-> first.find("]")) != string: :npos) 

{ 

让 - > second it- > seoond/pro map[it- > first.substr(st+ 1)]; 


} 
cout<< "计算 概率 过 程 如 下 :"<<endl; 
for (map< string, double> ::iterator it2=pro nep.begimMj 计 得 忠 率 ( 庙 9d() ;it2++) 
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if ((st=it2-> first.find("|"))== string::rpos) 
{ 
pro nep[it2- > first]=pro mep[it2- > first]/ (double)tenp sizel; 
} 
cout<< it2—> first< < ":"< < it2- > sonk < endl; 


) 

//oout< < "play=no:"< < (no/ (dable)teip size1)< < endl; 
/foout< < "play= yes:"< < (yes/ (doible)tap size1)< < endl; 

rejuige(); 


out< < getchar () ; 
retum 0; 
) 
Vectorc string> plit (onst strings src,const strings delimiter) 
/根据 定 界 符 分 离 字 符 串 


string::size type st; 
if(src.enpty0) 
t 

throw "Epty string!"; 
) 
if (Œlimiter.enpty ()) 
{ 

throw "Ehpty delimiter!"; 
) 
Vector< string> vect; 
string::size type last st=0; 
while((st= src.find first of (delimiter, last st))!= string: :npos) 


{ 
if(st!= last st) // 两 个 标记 间 的 字符 串 为 一 个 子 字符 串 
{ 
vect .push back(src.substr (last. st,st- last st)); 
} 
last st=st+1; 
} 
if(last st!=src.size()) // 标 记 不 为 最 后 一 个 字符 
{ 
vect .push back (src.substr (last st, string: :mpos)); 
} 
retum vect; 
} 
void rejuige() // 重 新 判断 原 输入 数据 的 类 别 


string tep string; 
dable terp pro; 
m< string, doble tenp mep; 
cout< < "aE fA A AER RA F "< < erat; 
for (vector< vector< string > ::size type st x=1;st x<vect.size();st x++) 


// 存 放 后 验 概率 的 临时 容器 


// 处 理 每 一 行 数据 


for ep string, int> ::iterator it= categoryJbegin(07 让 categary.end();it++) 
// 访 历 类 别 , 取 出 PEelcD 和 pflc3) 等 的 概率 值 


} 


tap proe=1.0; 
tap string vect [0] [vect [0] .size()- 1]+ "="+it- > first; 
teap pro* =pro nep[tenp string]; 
tenp string.erase(); 

for (gector< string> ::size type st y=0;st y<vect[st x].size();st y++) 


) 


// k pci) 


// 处 理 列 


if(it== category.begin()&&st. y!=vect[st x].size()-1) 
// 不 输出 原始 数据 已 有 的 类 别 ,使 用 预测 出 来 的 类 别 只 输出 一 次 ) 


out< <vect[st x][st y]< < " "; 
} 


if(st_y!=vect[st_x].size()- 1) // 乘 上 pilo) BESE — A A J E y| T ER tE 


{ 


tep string vect[0] [st_y]+ "= "+ vect[st_x] [st_y]+ "| "+ vect [0] [vect [0] .size ()- 1]+ "=" 


+it-> first; 
tep pro* =pro mep[tenp string]; 
tep string.erase(); 


tenp mep[it- > first]= tep pro; 


IE ptäilcj) 


// 存 下 概率 


//WVWW// 根 据 概率 最 大 判断 哪个 该 条 记录 应 属于 哪个 类 别 
string tenp string; 
temp pro= 0; 


cout<< "ARRE :"; 
for map string, dable ::iterator it% terp nap.begin() ; ZAA Aike t AE 35 z K AI lJ 


f 


// 初 始 化 概率 为 0 


Cout<<it2->first<<":"<<it2- > sonk <" "; 


if (it2- > second tenp pro) 


{ 


teap string?.erase(); 
tap string it2- > first; 
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cout< < "JÆ :"< < vect [0] [vect [0] .size()- 1]< < "= "< < tenp string>< < endl; 


// 输 出 该 条 记录 所 属 的 类 别 


} 


程序 运行 结果 如 图 5-5 所 示 。 




















图 5-5 程序 运行 结果 





上 面 的 程序 为 应 用 朴素 贝 叶 斯 分 类 器 来 解决 这 样 一 个 分 类 问题 : 根据 天 气 状况 来 判断 
某 天 是 否 适 合 打 网 球 。 程 序 读 取 了 14 个 训练 实例 ,并 显示 出 来 ,如 图 5-5(a) 所 示 。 然 后 对 
训练 样本 数据 集 进行 扫描 ,统计 出 打 网 球 的 频数 为 9, 不 打 网 球 的 频数 为 5, 以 及 在 打 网 球 和 
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(d) 


图 5-5 ( 续 ) 


不 打 网 球 两 类 条 件 下 ,各 种 天 气 状况 出 现 的 频数 。 例 如 ,在 不 打 网 球 的 情况 下 湿度 较 高 的 频 
数 为 4, 并 利用 贝 叶 斯 公式 分 别 计算 其 概率 。 又 如 ,在 不 打 网 球 的 情况 下 湿度 正常 的 概率 为 
0.2, 如 图 5-5(b) 所 示 。 最 后 由 朴素 贝 叶 斯 算法 分 类 模型 V( X) =argmaxP (Ci)P(X|C;) 计 
算出 在 4 种 天 气 状况 的 共同 影响 下 是 否 应 该 去 打 网 球 ,如 图 5-5(c) 所 示 。 如 在 sunny hot 
high FALSE 的 情况 下 ,后 验 概 率 为 no 一 0.0256,yes 王 0. 006 584 36 ,所 以 不 适宜 去 打 网 球 。 





G 


5.5 贝 叶 斯 算法 特点 及 应 用 
5.5.1 朴素 贝 叶 斯 分 类 算法 


1. 朴素 贝 叶 斯 算法 特点 


朴素 贝 叶 斯 分 类 算法 有 诸多 优点 : 逻辑 简单 .易于 实现 ,分 类 过 程 中 算法 的 时 间 空 间 
开销 比较 小 ;算法 比较 稳定 ,分 类 性 能 对 于 具有 不 同 数据 特点 的 数据 集合 差别 不 大 , 即 具 
有 比较 好 的 健壮 性 等 优点 。 

尽管 在 实际 情况 中 难以 满足 朴素 贝 叶 斯 模型 的 属性 类 条 件 独立 性 假定 ,但 它 分 类 预 
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测 效果 在 大 多 数 情况 下 仍 比 较 精确 ,原因 有 以 下 几 个 : 要 估计 的 参数 比较 少 , 从 而 加 强 了 
估计 的 稳定 性 ;虽然 概率 估计 是 有 偏 的 ,但 人 们 大 多 关心 的 不 是 它 的 绝对 值 ,而 是 它 的 排 
列 次 序 , 因 此 有 偏 的 概率 估计 在 某 些 情况 下 可 能 并 不 要 紧 ; 现 实 中 很 多 时 候 已 经 对 数据 进 
行 预 处 理 ,如 对 变量 进行 了 筛选 ,可 能 已 经 去 掉 了 高 度 相关 的 量 等 。 除 了 分 类 性 能 很 好 
外 , 贝 叶 斯 分 类 模型 还 具有 形式 简单 .可 扩展 性 很 强 和 可 理解 性 很 好 等 优点 。 

朴素 贝 叶 斯 分 类 器 的 缺点 是 属性 间 类 条 件 独 立 这 个 假定 ,而 很 多 实际 问题 中 这 个 独 
立 性 假设 并 不 成 立 , 如 果 在 属性 间 存 在 相关 性 的 实际 问题 中 忽视 这 一 点 ,就 会 导致 分 类 效 
果 下 降 。 

朴素 贝 叶 斯 分 类 模型 虽然 在 某 些 不 满足 独立 性 假设 的 情况 下 分 类 效果 仍 比 较 好 ,但 
是 大 量 研究 表明 可 以 通过 各 种 改进 方法 来 提高 朴素 贝 叶 斯 分 类 器 的 性 能 。 朴 素 贝 叶 斯 分 
类 器 的 改进 方法 主要 有 两 类 : 一 类 是 弱化 属性 的 类 条 件 独立 性 假设 ,在 朴素 贝 叶 斯 分 类 
器 的 基础 上 构建 属性 间 的 相关 性 ,如 构建 相关 性 量度 公式 ,增加 属性 间 可 能 存在 的 依赖 关 
系 ; 另 一 类 是 构建 新 的 样本 属性 集 , 期 望 在 新 的 属性 集中 ,属性 间 存在 较 好 的 类 条 件 独立 








2， 朴 素 贝 叶 斯 算法 应 用 


(1) 贝 叶 斯 方法 在 中 医 证 候 和 症状 描述 中 的 应 用 。 中 医 证 候 和 症状 描述 错综复杂 ， 
如 何 较 好 地 对 病 患 所 属 的 症候 进行 鉴别 诊断 ,一 直 是 临床 医疗 工作 者 的 首要 目标 ,把 数据 
挖掘 技术 的 朴素 贝 叶 斯 分 类 方法 应 用 到 中 医 证 候 的 诊断 识别 中 ,是 一 个 较 好 的 尝试 。 在 
使 用 朴素 贝 叶 斯 分 类 方法 对 中 医 证 候 进行 分 类 识别 并 用 遗传 算法 改进 时 ,经 历 了 以 下 过 
程 ; 首先 ,合理 抽象 鉴别 诊断 过 程 并 建立 数学 模型 ;其 次 ,提出 使 用 数据 挖掘 技术 中 的 朴 
素 贝 叶 斯 分 类 方法 对 模型 进行 求解 ;再 次 ,考虑 到 特征 数量 较 大 ,运用 遗传 算法 进行 特征 
优化 ;最 后 ,使 用 医学 上 常用 的 ROC 曲线 评价 方法 对 改进 前 后 的 分 类 识别 效率 进行 分 析 
比较 。 

(2) 贝 叶 斯 方法 在 玉米 叶 部 病害 图 像 识别 中 的 应 用 。 在 图 像 分 割 和 特征 提取 的 基础 
上 ,利用 朴素 贝 叶 斯 分 类 器 的 统计 学 习 方法 ,可 以 实现 玉米 叶 部 病 斑 的 分 类 识别 。 贝 叶 斯 
分 类 器 具有 网 络 结构 简单 .易于 扩展 等 特点 ,对 玉米 叶 部 病害 的 分 类 识别 效果 较 好 ,也 为 
其 他 作物 病害 图 像 识 别 的 研究 提供 了 借鉴 。 





5.5.2 贝 叶 斯 信念 网 


1， 贝 叶 斯 信念 网 特点 


(1) BBN 提供 了 一 种 用 图 形 模型 来 捕获 特定 领域 的 先 验 知识 的 方法 。 网 络 还 可 以 
用 来 对 变量 间 的 因果 依赖 关系 进行 编码 。 

(2) 构造 网 络 可 能 既 费时 又 费力 。 然 而 ,一 旦 网 络 结构 确定 下 来 ,添加 新 变量 就 十 分 
容易 了 。 

G) 贝 叶 斯 网 络 很 适合 处 理 不 完整 的 数据 。 对 有 属性 遗漏 的 实例 可 以 通过 对 该 属性 
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的 所 有 可 能 取 值 的 概率 求 和 或 求 积分 来 加 以 处 理 。 
(4) 因为 数据 和 先 验 知识 以 概率 的 方式 结合 起 来 了 ,所 以 该 方法 对 模型 的 过 分 拟 合 
问题 是 非常 鲁 棒 的 。 


2， 贝 叶 斯 信念 网 应 用 


(1) 基于 贝 叶 斯 信念 网 的 网 络 流量 分 类 与 识别 研究 。 网 络 流量 分 类 识别 技术 是 许多 
网 络 研究 和 应 用 领域 的 基础 ,但 随 着 动态 端口 、 端 口 伪装 和 信息 加 密 等 技术 的 使 用 ,传统 
的 纯 端 口 识别 法 已 不 再 有 效 , 用 基于 贝 叶 斯 信念 网 的 网 络 流量 分 类 方法 可 以 解决 这 个 问 
题 ,通过 使 用 有 向 无 环 图 和 结 点 概率 表 ,可 以 解决 流 属性 之 间 条 件 独立 的 问题 。 这 种 方法 
具有 稳定 可 靠 的 分 类 识别 效果 。 

(2) 贝 叶 斯 网 络 在 火灾 调查 中 的 应 用 。 火 灾 的 发 生 会 对 人 类 社会 和 人 类 生存 环境 造 
成 巨大 的 破坏 , 随 着 国家 科技 的 进步 和 经 济 的 发 展 ,火灾 的 发 生 呈 现 出 多 元 化 发 展 的 趋 
势 。 火 灾 调 查 对 于 国家 安全 和 社会 稳定 、 同 类 灾害 的 防治 以 及 火灾 事故 原因 的 认定 等 具 
有 重大 的 意义 。 由 于 在 火灾 调查 中 涉及 众多 的 不 确定 因素 , 贝 叶 斯 网 络 能 够 通过 数学 概 
率 算法 从 不 确定 因素 以 及 信息 不 完全 的 因素 中 提取 确定 因素 和 信息 。 所 以 ,可 通过 贝 叶 
斯 网 络 研究 如 何 协助 火灾 调查 人 员 在 众多 不 确定 的 火灾 因素 中 确定 关键 影响 因素 。 


1. 简 述 朴素 贝 叶 斯 分 类 的 工作 过 程 。 

2. 表 5-3 是 购买 汽车 的 顾客 分 类 训练 样本 集 。 假 设 顾客 的 属性 集 家 庭 经 济 状况 、 信 
用 级 别 和 月 收入 之 间 条 件 独立 , 则 对 于 某 顾客 (测试 样本 ), 已 知 其 属性 集 X=<— t. Ë 
秀 ,12k>, 利 用 朴素 贝 叶 斯 分 类 器 计算 这 位 顾客 购买 汽车 的 概率 。 


表 5-3 购买 汽车 的 顾客 训练 样本 集 
































F 号 家 庭 经 济 状况 信用 级 别 月 收入 /元 购买 汽车 
1 一 般 优秀 10k 是 
2 好 优秀 12k 是 
3 一 般 优秀 6k 是 
4 一 般 良好 8. 5k 否 
5 一 般 良好 9k 否 
6 一 般 优秀 7. 5k 是 
7 好 一 般 22k 是 
8 一 般 一 般 9.5k T 
5 一 般 良好 7k 是 
10 好 良好 12. 5k 是 
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第 6 章 人工 神经 网 络 算法 


6.1 基本 概念 
6.1.1 生物 神经 元 模型 


人 的 神经 系统 是 由 众多 神经 元 相互 连接 而 成 的 一 个 复杂 系统 ,神经 元 又 称 神经 细胞 ， 
它 是 神经 组 织 的 基本 单位 。 如 图 6-1 所 示 , 神 经 元 由 细胞 体 和 延伸 部 分 组 成 ,延伸 部 分 按 
功能 分 为 两 类 ,一 类 称 为 树 突 , 用 来 接收 来 自 其 他 神经 元 的 信息 ; 另 一 类 则 用 来 传递 和 输 
出 信息 , 称 为 轴 突 。 神 经 元 对 信息 的 接收 和 传递 都 是 通过 突 触 来 进行 的 。 单 个 神经 元 可 
以 从 别 的 神经 细胞 接收 多 达 上 千 个 的 突 触 输入 ,前 一 个 神经 元 的 信息 经 由 其 轴 突 传 到 末 
梢 之 后 ,通过 突 触 对 后 面 的 各 个 神经 元 产生 影响 。 当 若干 突 触 输 入 时 ,其 中 有 些 是 兴奋 性 
的 ,有 些 是 抑制 性 的 ,如 果 兴 奋 性 突 触 活动 强度 总 和 超过 抑制 性 突 触 活动 强度 总 和 ,使 得 
细胞 体内 电位 超过 某 一 阔 值 时 ,细胞 体 的 膜 就 会 发 生 单 发 性 的 尖峰 电位 ,这 一 尖峰 电位 将 
会 沿 着 轴 突 传播 到 四 周 与 其 相 联系 的 神经 细胞 。 
x 


RAA 
















细胞 体 轴 突 


神经 末梢 


入 
图 6-1 生物 神经 元 模型 


从 生物 控制 论 的 观点 来 看 ,神经 元 作为 控制 和 信息 处 理 的 基本 单元 ,具有 下 列 一 些 重 
要 的 功能 和 特性 : 

(1) 时 空 整合 功能 ; 

(2) 兴奋 与 抑制 状态 ; 

(3) 脉冲 与 电位 转换 ; 

(4) 神经 纤维 传导 速度 迅速 ; 

(5) 学 习 、 遗 忘 和 疲劳 。 
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6.1.2 ”人工 神经 元 模型 


人 们 通过 研究 发 现 ,大 脑 之 所 以 能 够 处 理 极其 复杂 的 分 析 、 推 理工 作 , 一 方面 是 因为 
其 神经 元 个 数 庞大 , 另 一 方面 还 在 于 神经 元 能 够 对 输入 信号 进行 非 线 性 处 理 。 人 工 神经 
元 模型 就 是 用 人 工 方 法 模拟 生物 神经 元 而 形成 的 模型 ,是 对 生物 神经 元 的 抽象 ,模拟 与 简 
化 , 它 是 一 个 多 输入 、 单 输出 的 非 线性 元 件 ,单个 神经 元 是 前 向 型 的 。 将 人 工 神经 元 的 基 
本 模型 和 激励 函数 合 在 一 起 构成 的 人 工 神经 元 ,就 是 著名 的 McCulloch-Pitts 模型 ,简称 
M-P 模型 。 

图 6-2 表明 ,人 工 神经 元 具有 许多 输入 信号 ,针对 每 个 输入 都 有 一 个 加 权 系 数 wi 称 
为 权 值 (weights), 权 值 的 正 负 模拟 了 生物 神经 元 中 突 触 的 兴奋 和 抑制 ,其 大 小 则 代表 了 
突 触 的 不 同 连接 强度 ,而 中 间 的 神经 元 对 所 有 的 输入 信号 进行 计算 处 理 ,然后 将 结果 输 
出 。 在 神经 元 中 ,对 信号 进行 处 理 采用 的 是 数学 函数 ,通常 称 为 激活 函数 激励 函数 或 挤 
压 函 数 ,其 输入 输出 关系 可 描述 为 


j“ = /( Yw, —6,) 


(6-1) 
es 








xol 


图 6-2 ”人工 神经 元 模型 


IP x (i 二 1,2,…,n) 是 从 其 他 神经 元 传 来 的 输入 信号 ;9; 是 该 神经 元 的 闽 值 rw 表示 从 
神经 元 i 到 神经 元 j 的 连接 权 值 ;f(。) 为 激活 函数 或 挤 压 函 数 。 由 于 神经 元 采用 了 不 同 
的 激活 函数 ,使 得 神经 元 具有 不 同 的 信息 处 理 特 性 ,而 神经 元 的 信息 处 理 特性 是 决定 神经 
网 络 整体 性 能 的 主要 因素 之 一 ,因此 激活 函数 具有 重要 的 意义 。 下 面 介绍 4 种 常用 的 激 
活 函数 形式 。 

(1) 阅 值 型 函数 , 即 f(x) 为 阶 跃 函数 。 





l, z220 
f(x)= (6-2) 
0, z=<0 
具有 这 一 作用 方式 的 神经 元 称 为 阔 值 型 神经 元 ,是 神经 元 模型 中 最 简单 的 一 种 ,经 典 
的 M-P 模型 神经 元 就 属于 这 一 类 。 
(2) 分 段 线性 函数 。 此 函数 的 特点 是 : 神经 元 的 输入 与 输出 在 一 定 区 间 内 满足 线性 
关系 。 这 类 函数 也 称 为 伪 线性 函数 ,表达 式 如 下 : 
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05 £= 0 
F= ` 0 2 = 3 (6-3) 
Ëy; g ae 
(3) Sigmoid 函数 。Sigmoid 函数 也 称 S 型 函数 ,通常 是 在 (0,1) 或 (一 1,1) 内 连续 取 
值 的 单调 可 微分 函数 。 它 是 一 类 非常 重要 的 激活 函数 ,无 论 神经 网 络 用 于 分 类 、 函 数 逼 近 
或 优化 ,Sigmoid 函数 都 是 常用 的 激活 函数 。 常 用 指数 或 正切 等 一 类 曲线 表示 。 


E PEN S = 1= 5 
f(x)= Fe~ 或 f(x) IF e" (6-4) 
其 中 4 又 称 为 Sigmoid 函数 的 增益 ,其 值 决 定 了 函数 非 饱和 段 的 斜率 ,4 越 大 ,曲线 就 


越 陡 。 
(4) 高 斯 函数 。 高 斯 函数 (也 称 钟 型 函数 ) 也 是 极为 重要 的 一 类 激活 函数 ,常用 于 径 
向 基 神 经 网 络 (RBF 网 络 ), 其 表达 式 为 
f(x)= 2 (6-5) 
式 中 6 称 为 高 斯 函数 的 宽度 或 扩展 常数 。6 越 大 ,函数 曲线 就 越 平坦 ;反之 ,6 越 小 ,函数 
曲线 就 越 陡峭 。 


6.1.3 主要 的 神经 网 络 模型 


人 工 神经 网 络 是 由 大 量 的 神经 元 按照 大 规模 并 行 的 方式 通过 一 定 的 拓扑 结构 连接 而 
成 的 。 神 经 元 只 是 单个 的 处 理 单元 ,并 不 能 实现 复杂 的 功能 ,只 有 大 量 神经 元 组 成 庞大 的 
神经 网 络 ,才能 实现 对 复杂 信息 的 处 理 与 存储 ,并 表现 出 各 种 优越 的 特性 。 因 此 必须 按 一 
定 的 规则 将 神经 元 连接 成 神经 网 络 ,并 使 网 络 中 各 神经 元 的 连接 权 按 一 定 的 规则 变化 ,这 
样 一 来 也 就 产生 了 各 式 各 样 的 神经 网 络 模型 。 到 目前 为 止 ,学 术 界 的 研究 人 员 已 经 提出 
了 近 60 种 神经 网 络 模型 ,我 们 可 以 按 下 述 几 个 方面 对 其 进行 分 类 : 

(1) 按 神经 网 络 的 拓扑 结构 可 以 分 为 反馈 神经 网 络 模型 和 前 向 神经 网 络 模型 ， 

(2) 按 神 经 网 络 模型 的 性 能 可 分 为 连续 型 与 离散 型 神经 网 络 模型 ,确定 型 与 随机 型 
神经 网 络 模型 ; 

(3) 按 学 习 方 式 可 以 分 为 有 教师 学 习 和 无 教师 学 习 神 经 网 络 模型 ; 

(4) 按 连 接 突 触 的 性 质 可 分 为 一 阶 线性 关联 和 高 阶 非 线 性 关联 神经 网 络 模型 。 

目前 的 使 用 中 比较 典型 的 一 些 神经 网 络 模型 主要 有 以 下 几 类 : 

(1) 误差 后 向 传播 (BP) 神 经 网 络 。BP 神经 网 络 是 前 馈 网 络 中 最 具 代 表 性 的 网 络 类 
型 。 该 类 神经 网 络 模型 是 一 种 多 层 映 射 神经 网 络 , 采 用 的 是 最 小 均 方差 的 学 习 方式 ,是 目 
前 使 用 最 广泛 的 神经 网 络 模型 之 一 。 多 层 感知 网 络 是 一 种 具有 三 层 或 三 层 以 上 的 阶层 型 
神经 网 络 。 典 型 的 多 层 感知 网 络 是 三 层 、 前 馈 的 阶层 网 络 , 即 输 入 层 、 隐 含 层 ( 也 称 中 间 
层 ) .输出 层 。 相 邻 层 之 间 的 各 神经 元 实现 全 连接 , 即 下 一 层 的 每 一 个 神经 元 与 上 一 层 的 
每 个 神经 元 都 实现 全 连接 ,而 且 每 层 各 神经 元 之 间 无 连接 。 
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(2) 径 向 基 函 数 神经 网 络 (Radial Basis Function Neural Network). K BP 神经 网 络 
以 外 , 径 向 基 函 数 神经 网 络 也 是 一 类 常用 的 前 馈 网 络 。 一 般 情况 下 ,RBF 网 络 采用 三 层 
结构 , 层 间 的 神经 元 连接 方式 与 BP 网 络 类 似 , 也 采用 层 间 全 连接 、 层 内 无 连接 方式 。 与 
BP 神经 网 络 最 大 的 不 同 之 处 在 于 , RBF 网 络 的 隐 节 点 的 基 函 数 采用 距离 函数 (如 欧 氏 距 
离 ) ,并 使 用 径 向 基 函 数 ( 如 高 斯 函数 ) 作 为 激活 函数 。 

(3) Hopfield 网 络 。Hopfield 网 络 作为 一 种 单 层 对 称 全 反馈 神经 网 络 , 使 用 与 层次 
型 神经 网 络 不 同 的 结构 特征 和 学 习 方 法 ,模拟 生物 神经 网 络 的 记忆 机 理 , 获 得 了 令 人 满意 
的 结果 。 它 是 由 相同 的 神经 元 构成 的 单 层 ,并 且 不 具有 学 习 功 能 的 自 联 想 网 络 。 网 络 的 
权 值 按 一 定 的 规则 计算 出 来 ,一 经 确定 就 不 再 改变 ,而 网 络 中 各 神经 元 的 状态 在 运行 过 程 
中 不 断 更 新 ,网 络 演变 到 稳 态 时 各 神经 元 的 状态 便 是 问题 之 解 。 

Hopfield 网 络 有 离散 型 和 连续 型 两 种 。 其 中 离散 型 的 激活 函数 为 二 值 型 的 ， 其 输入 
输出 为 (0,1) 的 反馈 网 络 , 主 要 用 于 联想 记忆 。 而 连续 型 Hopfield 网 络 的 激活 函数 的 输 
人 与 输出 之 间 的 关系 为 连续 可 微 的 单调 上 升 函数 ,主要 用 于 优化 计算 。 

(4) 随机 型 神经 网 络 。 在 BP 算法 和 Hopfield 算法 中 ,导致 网 络 学 习 过 程 陷 人 局 部 
极 小 值 的 原因 主要 有 两 点 : 

O 网 络 结构 上 存在 着 输入 与 输出 之 间 的 非 线性 函数 关系 ,从 而 使 网 络 误差 和 能 量 函 
数 所 构成 的 空间 是 一 个 含有 多 极点 的 非 线 性 空间 ; 

@ 网 络 误差 和 能 量 函数 只 能 按 单方 面 减 小 而 不 能 有 丝毫 的 上 升 趋势 。 

随机 型 神经 网 络 从 解决 网 络 收敛 问题 的 第 @ 点 原因 入 手 ,其 基本 思想 是 : 不 但 让 网 
络 的 误差 和 能 量 函 数 向 减 小 的 方向 变化 ,而 且 还 可 按 某 种 方式 向 增 大 的 方向 变化 ,目的 是 
使 网 络 有 可 能 跳出 局 部 极 小 值 而 向 全 局 最 小 点 收敛 。 随 机 型 神经 网 络 的 典型 算法 是 模拟 
退火 算法 。 

(5) Kohonen 网 络 。Kohonen 网 络 的 构想 来 源 于 人 的 视网膜 及 大 脑 皮层 对 刺激 的 
反应 机 理 。 对 于 某 一 个 输入 模式 ,通过 竞争 在 输出 层 中 只 激活 一 个 相应 的 输出 神经 
元 。 模 式 在 输出 层 中 将 激活 许多 个 神经 元 ,从 而 形成 一 个 反映 输入 数据 的 许多 输入 特 
征 图 形 。 

Kohonen 网 络 含 有 两 层 ,输入 缓冲 层 用 于 接收 输入 模式 ,输出 层 的 神经 元 一 般 按 正 
则 二 维 阵列 排列 ,每 个 输出 神经 元 连接 至 所 有 输入 神经 元 。 连 接 权 值 形成 与 已 知 输出 神 
经 元 相连 的 参考 矢量 的 分 量 。Kohonen 网 络 是 一 种 以 无 导师 方式 进行 网 络 训练 的 网 络 。 
它 通过 自身 训练 ,自动 对 输入 模式 进行 分 类 。 

(6) 玻 耳 效 曼 机 。 玻 耳 效 曼 机 由 Hinton 等 人 提出 , 它 的 思想 主要 来 源 于 统计 物理 
学 。 在 统计 物理 学 中 ,经 常 基于 能 量 来 考虑 状态 的 转移 ,状态 向 着 能 量 最 小 的 方向 转移 ， 
在 状态 转移 的 过 程 中 ,由 于 热 骚动 引起 系统 的 不 稳定 。 统 计 物 理学 中 的 玻 耳 效 曼 分 布 指 
出 : 能 量 越 小 的 状态 ,发 生 的 概率 就 越 大 , 即 系统 趋向 于 能 量 最 小 的 状态 。 而 神经 网 络 中 
的 玻 耳 效 曼 机 就 是 利用 这 种 分 布 寻 求 最 优 和解 的 。 玻 耳 效 曼 机 本 质 上 是 建立 在 Hopfield 
网 络 基础 上 的 ,具有 学 习 能 力 , 能 够 通过 一 个 模拟 退火 过 程 寻 求解 答 。 

(7) 对 向 传播 神经 网 络 。 对 向 传播 (Counter-Propagation) 神 经 网 络 (CP 网 络 ) ,是 美 
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国 神经 计算 机 专家 Robert Hecht-Nielsen 于 1987 年 提出 的 。 它 是 将 Kohonen 特征 映射 
网 络 与 Grossberg 基本 竞争 型 网 络 巧妙 结合 的 一 种 新 型 特征 映射 网 络 。 实 际 上 ,CP 网 络 
就 是 用 无 导师 学 习 来 解决 网 络 隐 含 层 的 理想 输出 未 知 的 问题 ,用 有 导师 学 习 解决 输出 层 
按 系统 要 求 给 出 指定 输出 的 问题 。 这 一 网 络 被 有 效 地 应 用 于 模式 分 类 、 函 数 近似 、 统 计 分 
析 和 数据 压缩 等 领域 。 


6.2 ”BP 算法 原理 
6.2.1 Delta 学 习 规则 的 基本 原理 


Delta 学 习 规 则 又 称 为 梯度 法 或 最 速 下 降 法 ,其 要 点 是 改变 单元 间 的 连接 权重 来 减 小 
系统 实际 输出 与 期 望 输 出 间 的 误差 。Delta 学 习 规则 是 最 常用 的 神经 网 络 学 习 算 法 ,主要 
应 用 在 误差 纠正 学 习 过 程 中 , 它 也 是 一 种 有 导师 学 习 算法 。 

假定 神经 元 权 值 修正 的 目标 是 极 小 化 标量 函数 F(w) ,其 中 下 (。) 函 数 代 表 神 经 网 
络 的 误差 目标 函数 ,ww 代表 神经 网 络 中 的 某 一 连接 权 值 。 如 果 神 经 元 的 当前 权 值 为 
w(t) ,并 且 假 设 下 一 时 刻 的 权 值 调节 公式 为 


w(t+1)= w(t)+ Aw(t) (6-6) 
式 中 ,Aw(t) 表 示 当 前 时 刻 的 权 值 修 正方 向 。 显 然 , 我 们 期 望 每 次 权 值 修 正 都 能 满足 
F[w(t+1)]< FLw(t)] (6-7) 


这 样 神经 网 络 输出 的 误差 才 会 随 着 训练 过 程 的 进行 而 不 断 地 向 最 小 化 的 目标 靠近 。 对 
F[w(t 十 1) ] 进 行 一 阶 泰勒 公式 展开 ,得 

F[w(t+1)]= FLw(t)+ Aw(t) JT FLw(t)+ g (1)Aw(t)] (6-8) 
式 中 ,g7(t) 二 VF[w(t)]|w-wc , 即 F(w) 在 w= 二 w(t) 时 的 梯度 矢量 。 显然, 如果 取 

Aw(t)=— cg (t) (6-9) 

式 中 ,c 取 较 小 的 正 数 ( 称 为 学 习 率 ), 即 权 值 修正 量 沿 网 络 误差 曲面 的 负 梯 度 方向 取 较 小 
值 , 则 式 (6-8) 的 右边 第 二 项 必然 小 于 零 , 式 (6-7) 必 然 满足 。 这 就 是 Delta 学 习 规 则 的 基 
本 原理 。 


6.2.2 BP 网 络 的 结构 


BP 神经 网 络 是 具有 三 层 或 三 层 以 上 的 阶层 型 神经 网 络 ,由 输入 层 、 隐 含 层 和 输出 层 
构成 , 相 邻 层 之 间 的 神经 元 全 互 连 ,同一 层 内 的 神经 元 无 连接 ,下 面 以 如 图 6-3 所 示 的 具 
有 一 个 隐 含 层 的 三 层 BP 网 络 来 介绍 BP 算法 的 实现 。 

图 6-3 中 ,假设 输入 层 、 隐 含 层 和 输出 层 的 单元 数 分 别 是 I.J 和 ,输入 为 
(mos 72 t ,X11): 隐 含 层 输出 为 (hos 有 ,hos…,hy-1), 网 络 实际 输出 为 (yo, yis 
ya yki), (dosdi sdz ,dk-1) 表 示 训 练 样本 的 期 望 输出 。 输 入 层 单元 i 到 隐 含 层 单 
Tj 的 权 值 为 v; , 隐 含 层 单元 j 到 输出 层 单元 & 的 权 值 为 wx ,用 0; 和 04 来 分 别 表 示 隐 含 
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ïj Yo 
X X 本 
Xr Jka 
输入 层 节点 i 隐 含 层 节点 7 输出 层 节点 k 
图 6-3 =E BP 神经 网 络 结构 示意 图 
层 单元 和 输出 层 单元 的 冰 值 。 
于 是 ,该 网 络 隐 含 层 单元 的 输出 值 为 
h; = (uz 0) (6-10) 
输出 层 各 单元 的 输出 值 为 
yx = (ua, — 0) (6-11) 


6.2.3 BP 网 络 的 算法 描述 


BP 算法 的 主要 思想 是 从 后 向 前 ( 反 向 ) 逐 层 传播 输出 层 的 误差 ,以 间接 算出 隐 层 误 
差 。 算 法 分 为 两 个 阶段 : 第 一 阶段 ( 正 向 传播 过 程 ) 输 入 信息 从 输入 层 经 隐 层 逐 层 计算 各 
单元 的 输出 值 ;第 二 阶段 ( 反 向 传播 过 程 ) 输 出 误差 逐 层 向 前 算出 隐 层 各 单元 的 误差 ,并 用 
此 误差 修正 前 层 权 值 。 其 中 的 网 络 权 值 调整 采用 Delta 学 习 规 则 , 即 根据 梯度 法 沿 着 误 
差 曲 面 的 梯度 最 速 下 降 , 从 而 实现 网 络 误差 的 最 小 化 。 


1. 正 向 计算 输出 阶段 


以 如 图 6-3 所 示 的 BP 神经 网 络 为 例 , 假 设 BP 网 络 的 输入 层 节 点 数 为 1, 隐 含 层 节 点 
数 为 了 ,输出 层 节点 数 为 K。 输 入 向 量 为 X = (zoyzi,zz ttt Tri) ,其 期 望 输出 向 量 为 
D?==(doydisdi，…sdx-1), 则 有 : 

(1) 输入 层 : 

O: = zi=0,1,2,..,1—1。 (6-12) 

(2) 隐 含 层 : 为 简化 推导 ,把 各 点 的 阔 值 当 作 一 种 特殊 的 连接 权 值 ,其 对 应 的 输入 恒 
为 一 1。 对 于 第 j 个 神经 元 的 输入 为 


I 
nej = 2》)vsOi， 其 中 O; = 一 1.vi BB. (6-13) 
i=0 
其 第 j 个 节点 的 输出 为 
O; = Faneb)，j = 0,1,2,…,J 一 1 (6-14) 
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(3) 输出 层 : 同 理 , 对 于 第 & 个 神经 元 的 输入 为 


š 
net, = > roaOi， 其 中 O; = 一 1 .wi HAE. (6-15) 
j=0 
其 第 个 节点 的 输出 为 
O, = f (net), k=0,1,2,.…,K—1 (6-16) 
定义 BP 网 络 的 能 量 函 数 (误差 函数 ) 为 
天 一 1 
E, = t-o (6-17) 
2 = 
则 N 个 样本 的 总 误差 为 
j N—1 K 一 1 
= p — Ot )2 z 
Eg 2N% (df — O$ ) (6-18) 


式 中 : E, — p 的 输出 误差 ; 
dt 一 一 样本 p 的 期 望 输 出 ; 
0 一 一 输出 层 神经 元 的 实际 输出 。 


2. 误差 反 向 传播 阶段 


通过 调整 权 值 和 阔 值 ,使 得 误差 能 量 达到 最 小 时 ,网 络 趋 于 稳定 状态 ,学 习 结束 。 求 
解 无 约束 最 优化 方程 式 (6-17) 的 常用 方法 有 : 拟 牛 顿 迭代 法 、 最 佳 梯度 下 降 法 等 。 但 前 
两 种 方法 涉及 矩阵 求 逆 , 其 计算 量 大 ,因此 我 们 采用 后 一 种 方法 来 调整 权 值 。 

1) 输出 层 与 隐 含 层 之 间 的 权 值 调整 

对 每 一 个 wi 的 修正 值 为 
aE 3E " Anet, 


















































Awg EA 1 Jnet, Don (6-19) 
式 中 ,7 为 学 习 步 长 ,取信 区 间 为 (0,1)。 
对 式 (6-15) 求 偏 导 得 
Anet, 
= -20 
Do O; (6-20) 
记 
__9E 
ò = Anet: 
则 有 
3E aE OO, sa Š 
Ôr net J0; ° Inet, (d,—O,)f (net) (6-21) 
将 式 (6-20) 式 (6-21) 代 入 式 (6-19) 中 得 
aE aE Ənet, 
Awa 13w; net . Fai WOO; (6-22) 
2) 隐 含 层 与 输入 层 的 权 值 调整 
同 理 ,对 每 一 个 vi 的 调整 值 为 
3E 9E Anet; aE 5 
Av, 17v; 1 Inet, ` gu; ( gnet; )o， WO, 6629) 
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aE __9E 20; 




















ð =- anet; 20; “ Ənet; 
再 由 
天 一 1 天 一 1 
aE afl 2 IO Anet: 
30; 元 | Ar =O) ] > a Onen 20, 
K 一 1 K 一 1 
= $, (d, —O,)f' (neti ywa = Ddrwi (6-24) 
k=0 k=0 
得 
Ea 
8; = f (net;) X drwa (6-25) 
k= 
综 上 所 述 , 若 BP 神经 网 络 每 一 层 的 激活 函数 均 取 单 极 S 型 函数 , 即 
= 
fl(net)= Ipe" (6-26) 


则 可 以 方便 地 计算 出 该 网 络 各 层 的 权 值 修正 量 。 
(1) 对 于 输出 层 
Awa = 70; (d, — OL) f’ (nets) = 70; (d, — O,)O, (1 — O,) (6-27) 
(2) 对 于 隐 含 层 


K—1 K 一 1 
Au = 7 * f (net;) 20uox。O = 10;(1— 0;) > drwa * O, (6-28) 
k=0 k=0 


6.2.4 标准 BP 网 络 的 工作 过 程 


BP 神经 网 络 的 工作 过 程 通常 由 两 个 阶段 组 成 : 在 第 一 个 阶段 ,神经 网 络 各 节点 的 连 
接 权 值 固定 不 变 , 网 络 的 计算 从 输入 层 开始 , 逐 层 逐个 节点 地 计算 每 一 个 节点 的 输出 , 计 
算 完毕 后 ,进入 第 二 个 阶段 , 即 学 习 阶 段 。 在 学 习 阶段 ,各 节点 的 输出 保持 不 变 , 网 络 学 习 
从 输出 层 开始 , 反 向 逐 层 逐个 节点 地 计算 各 连接 权 值 的 修改 量 ,以 修改 各 连接 的 权 值 , 直 
到 输入 层 为 止 。 这 两 个 阶段 称 为 正 向 传播 和 反 向 传播 过 程 ,在 正 向 传播 中 ,如 果 在 输出 层 
的 网 络 输出 与 期 望 输出 相差 较 大 , 则 开始 反 向 传播 过 程 ,根据 网 络 输出 与 所 期 望 输出 的 信 
号 误差 ,对 网 络 节点 间 的 各 连接 权 值 进行 修改 ,以 此 来 减 小 网 络 实际 输出 与 所 期 望 输出 的 
误差 。BP 网 络 正 是 通过 这 样 不 断 进行 的 正 向 传播 和 反 向 传播 计算 过 程 ,最 终 使 得 网 络 输 
出 层 的 输出 值 与 期 望 值 趋 于 一 致 。 

BP 神经 网 络 的 总 体 步 又 大 致 如 下 所 示 。 

(1) 权 值 初始 化 : wi 三 Random (。) ,wi 二 Random(。), 其 中 ww; 表示 网 络 输入 层 
单元 到 隐 含 层 单元 的 连接 权 值 ;wj 表示 网 络 隐 含 层 单元 到 输出 层 单元 的 连接 权 值 。 

(2) 依次 输入 已 个 学 习 样本 。 设 当前 输入 为 第 户 个 样本 。 

(3) 依次 计算 各 层 的 输出 : O .O, ;其 中 O, 为 隐 含 层 上 第 j 个 神经 元 的 输出 ,Ou 为 输 
出 层 上 第 & 个 神经 元 的 输出 。 

(4) 根据 式 (6-21) 式 (6-25), 求 网 络 各 层 的 反 传 误差 。 

à, = (d, — OF (neti) (6-29) 
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(ELE) 


= f (net;) DOr (6-30) 
并 记 下 各 个 Of*”、Of?*” 的 值 。 
(5) 记录 已 经 学 习 过 的 样本 个 数 p。 如 果 p<<P, 就 转 到 步骤 (2) 继 续 计 算 ; 如 果 p= 
P, 则 转 到 步骤 (6)。 
(6) 按 权 值 修正 公式 修正 各 层 的 权 值 和 阔 值 。 


(7) 按 新 的 权 值 再 计算 0 .Of 和 Es — Ñ 
应 的 第 个 输出 神经 元 ,都 满足 |df ”一 05”? |< 
te sí 轮 的 网 络 学 
为 形象 起 见 ,我 们 将 标准 BP 算法 的 整个 过 程 连贯 起 来 ,得 到 以 下 的 BP 网 络 学 习 算 


I 
ot 


一 Of)*, 若 对 每 个 p 样 本 
。, 或 达到 最 大 学 习 次 数 , 则 终止 学 


+ 


ji 
S 






























































法 流程 如 图 6-4 所 示 。 

网 络 权 导 初始 化 
输入 训 红 样本 数 
读 取 第 一 个 样本 
waym 

= 

as ss u 

读 到 下 一 个 样本 
TARAA 




















图 6-4 BP 网 络 学 习 算法 流程 图 


6.3 BP 算 法 实例 分 析 


【 例 6.1] 采用 BP 网 络 映射 得 到 如 图 6-5 所 示 的 曲线 规律 。 
设计 单 隐 层 1-4-1 BP 网 络 结构 如 图 6-6 所 示 。 
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图 6-6 BP 网 络 结构 





权 系 数 随机 选取 为 rw =0.2,un =0. 3, wu =0. 4, ws =0. 5, wz =0. 5, w | =0.2, 
ws =0. 1 wss =0. 4。 

RJR =l. E 6-5 中 曲线 确定 学 习 样本 数据 如 表 6-1( 每 0.05 取 一 学 习 数 
据 , 共 80 对 ) 所 示 。 














表 6-1 学 习 样本 
x( 输 入 信号 ) 7 教师 信号 ) x: x( 输 入 信号 ) ?( 教 师 信号 ) 
0.0000 0.5000 = 3. 0000 0. 0000 
1. 0000 1. 0000 -e 4. 0000 0. 5000 














按 表 中 的 数据 开始 进行 学 习 。 
第 一 次 学 习 , 输 入 z1=0.0000(1 节点 第 1 次 学 习 ) ,dd 二 0.5000, 计 算 2、3、4、5 单元 
状态 neti 。 
neti= wuri =w * 0.0000=0.0000，i=2,3,4,5 
H 2.3.4.5 各 隐 层 单元 输出 y,G=2.3.4,5)., 


yi = f(neti) =1/(1+e)= 0.5 
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计算 输出 层 单元 6 的 状态 值 nets 及 输出 值 yi。 


LB 
A 05 
nets = WY; = [0.5 0.2 0.1 0.4] 0 s =— 0.6 
-J 
0.5, 
ys = 1/(1+ e) = 1/(1 + e *:5) = 0. 6457 


反 推 确定 第 二 层 权 系数 变化 。 
6% = yi(di— yi)(1—y) = 0.6457(0.5—0.6457)(1—0.6457) 0.0333 
wis = we + MsY i= 2,3,4,5 

第 一 次 反 传 修正 的 输出 层 权 为 








L5 0.5 0. 4833 
0.2 0.5 0. 1833 
W, = + 1e (—0.0333) = 
0.1 0.5 0. 0833 
0. 4 0.5 0. 3833 


反 推 第 一 层 权 系数 修正 。 
òl; = hwy: (1— yi), i=2,3,4,5 
wi = wi; + nlizl 
Wu = [0.2 0.3 0.4 0.5]7 
第 二 次 学 习 ,x? = 二 0.0500,d?==0. 5250 
net: = wuti, i= 2,3,4,5 
y = 1/[1 + eed] = 1/[1 + e20] 一 0.5025 
y = 1/[1 + ea] = 1/[1 + eee] = 0.5037 
yi = 1/[1 + e 0.000 ] = 0, 5050 























yš = 0.5062 
计算 6 单元 状态 net, 。 
. 5025 
+ 0.5037 
nets = WIY; = [0.4833 0.1833 0.0833 0.3833]| _ _ |= 0.5713 
0.5050 
0. 5062 











yé = f(net,) = 1/(1 + e %*%l3) = 0, 6390 
按 表 中 的 数据 依次 训练 学 习 , 学 习 次 数 足 够 高 时 ,可 达到 学 习 目 的 ,实现 权 值 成 熟 。 
【 例 6.2] 如 图 6-7 所 示 是 一 个 单 隐 层 3-2-1 BP 网 络 。 
学 习 样 本 、 初 始 各 层 权 系数 、 阔 值 如 图 6-8 所 示 。 
计算 各 隐 含 层 以 及 输出 层 的 输入 、 输 出 值 , 如 图 6-9 所 示 。 
反 推 各 层 系数 修正 ,如 图 6-10 所 示 。 
经 过 第 一 次 学 习 得 到 的 新 的 权 系数 和 阔 值 如 图 6-11 所 示 。 
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图 6-7 BP 网 络 





Wig | W35 | Wa6 














































































































x | x 
1 0 
图 6-8 初始 值 
节点 网 络 输入 值 输出 值 
4 0.2+0-0.5-0.4=-0.7 1/(1+eu7)=0.332 
š —0.3+0+0.2+0.2=0.1 1⁄1+e®!)=0.525 
6 (-0.3)(0.332)-(0.2)(0.525) + 0.1 = -0.105 1/(1+e®105)=0.474 
图 6-9 各 隐 含 层 以 及 输出 层 的 输入 、 输 出 值 
节点 权 系 数 变化 
6 (0.474)(1-0.474)(1-0.474)= 0.1311 
5 (0.525)(1-0.525)(0.1311)(-0.2) = -0.0065 
4 (0.332)J(1-0.332)(0.1311)(-0. 
图 6-10 各 层 系数 修正 
权 系数 和 国 值 新 的 值 
Wis —0.3+(0.9)(0.1311)(0.332)=-0.261 
Wse -0.2+(0.9)(0.1311)(0.525)=—0.138 
Wig 0.2+(0.9X-0.0087X1)-0.192 
wis —0.3+(0.9)(—0.0065)(1)=-0.306 
Wag 0.4+(0.9)(—0.0087)(0) = 0.4 
Was 0.1+(0.9)(—0.0065)(0) = 0.1 
W34 —0.5+(0.9)X(—0.0087)(1)=-0.508 
W35 0.2+(0.9)(-0.0065)(1) = 0.194 
6 0.1+(0.9)(0.1311)=0.218 
0; 0.2+(0.9)(-0.0065)-0.194 
0, —0.4+(0.9)(-0.0087)=-0.408 











图 6-11 新 的 权 系数 和 阔 值 
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#define FRRNDOM rand() /32767.0 


const int Layer MBx= 5; 

const double PI= 3.1415%7; 

anst int Layer nmibber[Iayer Mex]= (2,4,4,2,1); 
anst int Neural Max= 4; 

anst int Iwe 21; 

ofstream Out W File("ALL W.txt",ios::cut); 
ofstream Out Error ("Error.txt", ios: :out) ; 
/定义 类 Be 

class BP 

{ 

pblic: 

BP(); 

void BP Print (); 

dable F (double x); 

dable Y (Gable xl,double x2); 


dable NetWorkout (int xl, int 2); 
void Alllayer D(int x1, int x2); 
void Change W(); 

void Train (); 

void After Train Ot(); 

dable Cost (duble cut, double Esp) ; 


private: 
doable W[Tayer Max] Neural Max] Neural Max]; 


//o- 工 随机 数 生成 函数 


// 神 经 网 络 的 层 数 

/圆周率 

// 神 经 网 络 各 层 的 神经 元 个 数 

// 神 经 网 络 各 层 的 最 大 神经 元 个 数 
// 样 本 输入 的 个 数 


//BP 类 的 构造 函数 
// 打 印 权 系数 

// 神 经 元 的 激发 函数 
// 要 通 近 的 函数 


// 网 络 输出 , 它 的 输入 为 
// 第 input Ë k 
/[ 求 所 有 神经 元 的 输出 误差 微分 
/改变 权 系数 
// 训 练 函 数 
/上 经 过 训练 后 , 拒 个 样本 的 神经 网 络 输 出 
// 代 价 函数 


// 保 存 权 系数 


// 规 定 WilD] 中 表示 网 络 第 i 层 第 j 个 神经 元 连接 到 


/人 第 i RR k 个 神经 元 的 权 系数 


dable Input Net [2] [Imex]; 


/和 个 样本 输入 约定 ot Nt I] Bi] 
IRRE iA À z 
// 而 Input Net[1] [表示 第 i 个 样本 的 输入 2 


人 工 神经 网 络 算法 


dable Out Esp[TrMex] [Invar]; /期 望 输出 

dable Layer Node[[ayer Max] [Neural Max]; // 保 存 各 神经 元 的 输出 
// 规 定 Iayer NodeG]D] 表 示 第 i 层 第 j 个 神经 元 的 输出 

dable D[Iayer Max] [Neural Max]; /保存 各 神经 元 的 误差 微分 
// 规 定 DG D] 表 示 第 i 层 第 j 个 神经 元 的 误差 微分 

dable Study Speed; /学 习 速 度 

dable e; // 误 差 


/构造 函数 ,用 来 初始 化 权 系数 ,输入 ,期望 输 出 和 学 习 速度 
BP::BP() 
{ 
srand {time (WL); /播种 ,以 便 产 生 随机 数 
for(int i=1; i<Iayer Max; i++) 
i 

for (int j= 0; j< layer runber[i]; j++) 

{ 

for(int k= 0; k< Layer runber[i- 1]+ 1; k++) 
{ 


W[i] D] [k]= RAD; // 随 机 初始 化 权 系数 
} 
//Qli] B= FANDOM; // 初 始 化 各 神经 元 的 阔 什 
) 
) 
/输入 和 输出 归 一 化 


for (int ]= 0; 1< Imex; 1++) 
{ 
Input Net[0] [1]=1 * 0.05; /把 91 分 成 20 等 份 ,表示 过 
Iput Net[1] [1]=1-1 * 0.05; /表示 2 
} 
for (i= 0; i< IrMax; i++) 
{ 
for (int j= 0; j< IrMax; j++) 
{ 
Out: Esp[i] Ü]= Y (Irgut- Net [0] [i], Input Net[1] [j]); /期 望 输出 
Out Ep[i] [j]= Out Esp[i] DB]/3.000000; /期 望 输出 归 一 化 


Study eet 0.5; /初始 化 学 习 速度 


e=0.0001; // 误 差 精 度 
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HW/end 

/人 广发 函数 F0 

dable RP: :F (dable x) 

{ 

retum{(1.0/ (+ ep({-x))); 

HW/end 

// 划 逼近 的 函数 YO 

// 输 入 : 两 个 浮 点 数 

/输出 : 一 个 浮 点 数 

dable BP::Y(double 习 ,double x2) 
{ 

dable tenp; 

tap=pw(xl- 1,4)+2 * pw(2,2); 


Yn hh aasosisha qi 
/代价 函数 
dable BP: :Cost (double Out, double Esp) 
( 
retum (pow (Out— Exp,2)); 
HW/erd 
// 网 络 输 出 函数 
// 输 入 为 : 第 input 个 样本 
double BP: :NetWorkOut (int xl, int x2) 
{ 
int ijk; 
dable N node[[ayer Max] [Neural Max]; 
/约定 N node [i] RRA % i 层 第 j 个 神经 元 的 总 输入 
// 第 0 层 的 神经 元 为 输入 ,不 用 权 系数 和 阔 值 , 即 输入 什么 即 输出 什么 
N_node[0] [0]= Input Net [0] [1]; 
Layer Node [0] [0]= Input Net [0] [x1]; 
N node [0] [1]= Input Net[1] [2]; 
Layer Node [0] [1]= Input Net [1] BO]; 


for (i=1; i< Layer Max; i++) // 神 经 网 络 的 第 J 
{ 
for Ü= 0; j< Layer mnber[i]; j++) //iayer_nmiber[i] 为 第 i 层 的 
{ // 神 经 元 个 数 
N node [i] [j]= 0.0; 
for (E= 0; k< Layer mnber[i- 1]; k++) /Iayer runter[i- 1] 
{ /| 表示 与 第 i 层 第 j 个 神经 元 连接 的 上 一 层 的 
// 神 经 元 个 数 


/未 上 一 层 神经 元 对 第 i 层 第 j 个 神经 元 的 输入 之 和 
N node[i] D] + =Layer Node[i- 1] [k] * W[3] D] [k]; 
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) 
N noli] []=N mæli] B]- WI] B] [Kk]; // 碱 去 国 值 
// 求 Layer Node[i][j], 即 第 i 层 第 j 个 神经 元 的 输出 
Iayer Node[i] [j]}=F N noše[i] D]); 


} 


retum Iayer Node [ayer Max- 1] [0]; /最 后 一 层 的 输出 
W/end 

// 求 所 有 神经 元 的 输出 误差 微分 函数 

/输入 为 :第 input 个 样本 

// 计 算 误差 微分 并 保存 在 DO 0 数组 中 


void BP::Alllayer D(int xl, int x2) 
{ 
int i,j,k; 
dable tenp; 
D[Layer Max- 1] [0]Ü= Layer Nbde[Iayer Max- 1] [0] * 
(1- Layer Node [Layer Max- 1] [0]) * 
(Layer Node [[ayer Max- 1] [0] - Out: Exp[x1] [x2]); 
for (i= Layer Max- 1; > 0; i--) 
t 
for = 0; j< Layer nmber[i- 1]; j++) 
{ 
temp= 0; 
for (E= 0; k< Layer mnber[i]; k++) 
{ 
tenp= tept WLi] [K] D] * DI] [k]; 
) 
D[i- 1] [j]= Layer Node[i- 1][j] * (1- Layer Node[i- 1] [j]) * tenp; 


} 
MW/erd 
// 修 改 权 系数 和 国 值 
void BP::Change W() 
{ 
int i,j,k; 
for (i=1; i< Layer Max; i++) 
t 
for(j= 0;j< Layer mnber[i];j++) 
{ 
for (E= 0;k< layer rmnber[i- 1];kt +) 
t 
/修改 权 系数 
W[i] D] [k] |sWi] D] [k]- Study_Speed* 


人 工 神经 网 络 算法 
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DI] [j] * Layer Mofi- 1] [k]; 


} 
Wii] [j] [k]=W[i] D] [k]+ Study Speedax D] [j]; 
} 


1 
HW/end 
// 训 练 函数 
void BP: :Train() 
{ 
int i,j; 
int ok= 0; 
dable Out; 
loy int count= 0; 
dable err; 
ofstream Ot count ("Out _cant.txt", ios: :0ut); 

// 把 其 中 的 5 个 权 系数 的 变化 保存 到 文件 里 
ofstream outWEilel("W[2] [0] [0] .txt", ios: :out); 
ofstream outWFile? ("W[2] [1] [1] .tt",ios::out); 
ofstream outWFile3("W[1] [0] [0] .txt", ios: :out); 
ofstream outWFile4 ("W[1] [1] [0] .txt", ios: :out); 
ofstream outWFile5 ("W[3] [0] [1] .txt", ios: :out); 
while (ok< 441) 
{ 

omt +; 

//20 个 样本 输入 

for (i= 0,ok= 0; i< IrMax; i++) 

{ 

for Ü= 0; j< Inex; j++) 
{ 
Out= NetWorkout (i,j); 
Alllayer D(i,j); 


err=Cost (Out,Out Exp[i] [j]); 
if(err< e)okt +; 
else Change W(); 

} 

if((comnt%1000)== 0) 


{ 
cout<<count<<" "<<err<<endl; 


/修改 阔 值 


// 计 算 误差 


// 是 否 满足 误差 精度 


/是 否 修改 权 系数 和 阔 值 


/每 1000 次 ,保存 权 系数 


Qt count<< oant< < ","; 
Qt Error< < err< < ","; 

cutWEilel<<W[2] [0] [0]< < ","; 
cutWEile2<<W[2] [1] [1]< < ","; 
utWEilex < W[1] [0] [0]< < " 








outWFile& <W[1] [1] [0]< < ","; 
cutWEile5<<W[3] [0] [1]< < ","; 
for (int p= 1; p< layer Max; pt +) 
t 
for (int j= 0; j< ayer runber[p]; j++) 
{ 
for (int k=0; JKIayer mnber[p- 1]+1; k++) 
t 
Out W File<< 'W'<< '['<<p<< ']' 
<<'[*x<j<<']' 
<<'['<<k<< ']' 
<< '='<<W[p] D] [k]< < ' '<< ' *; 
) 
) 
} 
Qt W Filec<'\n<< '\n'; 
} 
} 
cout<<errc<endl 
Jena 
// 打 印 权 系数 
void BP: :BP Print () 
{ 
// 打 印 权 系数 
cout<<"W 练 后 的 权 系 数 "<<endl; 
for(int i=1; i< Layer Max; i++) 
{ 
for(int j=0; j< layer mnber[i]; j++) 
{ 
for (int k= 0; k< Layer mnber[i- 1]+1; k++) 
t 
cout< <W[i] D] [k]< <" d 
} 
Oout< < endl; 
} 
} 
out< <endl< <endl; 
HW/end 
/把 结果 保存 到 文件 
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void BP: :After Train Out() 
{ 
int i,j; 


ofstream Out x1 ("Out x1.txt",ios::cut); 


ofstream Out x2 (Out. xO.txt",ios::cut); 


ofstream Out Net ("Out Net.txt",ios::cut); 


ofstream Out Exp ("Out Exp.txt",ios::cut); 
ofstream W End("W End.txt",ios::out); 
ofstream Q Fnd("Q End.tzt",ios::cut); 
ofstream Array ("Array.txt", ios: :out); 
ofstream Out x11 ("xl.txt",ios::0ut) ; 
ofstream Out. xO? ("x2.txt", ios: :0ut); 
ofstream Result1("result1.txt",ios::out); 
ofstream Out_x111 ("x11.txt", ios: :0out); 
ofstream Out. x222 ("x22.txt", ios: :0ut); 
ofstream Result2 ("result2.txt", ios: :out); 


for (i= 0; i< IrMax; i++) 
I 
for (j= 0; j< IrMax; j++) 
{ 
Qt x11< < Input Net [0] [i]<<','; 
Qt xO2< < Input Net [1] [j< < ","; 
Result1< < 3* NetWorkOut (i,j)< < ","; 
Out. x1< < Input Net [0] [i]< < ","; 
Array< < Input Net [0] [i]< < " gi 


Out x2< < Input Net [1] )]< < ","; 
Array< < Input Net [1] [j]< < " “$ 
Out Net< < 3# NetWorkout (i,j)< < ","; 
Array< < Y (Input Net [0] [i], Input Net [1] [j])< <" 
Qt Esp< <Y (Input Net[0] [i], Input _Net[1] [j])< < ","; 
Array< < 3* NetiorkOut (i,j)<<" "> 
Array< < '\n'; 
} 
Out x1<< '\n'; 





Out x2<< '\n'; 

Out x11< < '\n'; 
Out x22< < '\n'; 
Result1< < '\n'; 
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i) 
for (j= 0; j< IrMax; j++) 
{ 
for (i= 0; i< IrMax; i++) 
{ 
Out. x111< < Input Net[0] [i]<< ','"; 
Out x222< < Input Net [1] [jK < ","; 
Result2< < 3% NetiorkOut (i, j)< < ","; 
} 
Out x111< < '\n'; 
Out. x222< < '\n'; 
Result2< < '\n'; 


/把 经 过 训练 后 的 权 系数 和 国 值 保存 到 文件 里 
for(i=1; i<Iayer Max; i++) 
{ 
for (int j= 0; j< Layer nnber[i]; j++) 
{ 
for (int 0; k< Layer runber[i- 1]+1; k++) 


W Enk <W[i] D] [k] < < ","; /保存 权 系数 
} 
} 
}/end for 


HW/end 


void main (void) 
{ 


EP B; /| 生成 一 个 IR B 
B.Train(); // 开 始 训练 

B.BP Print(); // 把 结果 打印 出 来 
B.After Train Out); // 把 结果 保存 到 文件 


) 

运行 结果 如 图 6-12 所 示 ,程序 采用 BP 神经 网 络 结构 ( 正 向 神经 网 络 结构 为 2-4-4-2-1) 
ANE KA 

f (aa zI)= (zı —1)* +2zš 

(1) 网 络 各 神经 元 的 激发 函数 为 : s 函数 一 一 F(x) = 1/[1 十 exp( 一 z)]。 

(2) 输入 层 的 神经 元 不 是 真正 的 神经 元 ,它们 的 输出 等 于 输入 。 

(3) 取 20 个 样本 值 作为 训练 用 。 

(4) xir: 的 取 值 范围 是 : 0<x,.z,<1, 
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"DAProgram Files\Microsoft Visual Studio\MyProjects\6_4_BP\Debug\6 4 Bpexe” e 











图 6-12 输出 的 结果 


(5) 误差 二 0. 0001。 

对 要 双 近 的 函数 f(xi,zz) 二 (zi 一 1)' 十 2x2 进行 分 析 。ziyzs 的 取 值 范围 是 , 0 
zi: 之 1]。 那 么 ,输入 就 不 用 归 一 化 了 ( 若 zi,zs 的 值 域 不 在 0~1, 那 就 要 输入 归 一 化 
了 ,因为 我 们 可 以 从 神经 网 络 的 激发 函数 看 出 ,输入 在 0—1 时 ,变化 率 是 很 大 的 ,所 以 网 
络 对 输出 很 敏感 )。 求 该 函数 的 值 域 ， RI 该 函数 的 值 域 为 0 一 3, 这 就 需要 归 一 化 了 ， 
因为 神经 网 络 输出 的 值 只 能 为 0~1。 设 Out_Exp[ 门 为 第 i 个 输入 样本 的 期 望 值 ,那么 归 

-化 后 的 期 望 输出 就 为 Out_Exp[ :]/3. AORA Aa tp 
最 后 在 网 络 输出 时 要 反 归 一 化 , 即 把 网 络 的 输出 乘 以 3 

首先 ,我 们 考虑 如 何在 计算 机 程序 设计 中 表示 权 系数 和 浆 值 ,在 这 里 我 们 定义 了 三 维 
数组 W[Layer_Max][Node_Max][ Node_Max 十 1 ] 用 来 表示 神经 网 络 的 全 部 权 系数 和 立 
值 ,Layer_Max 表示 网 络 结构 的 层 数 , Node_Max 表示 整个 神经 网 络 各 层 中 含有 神经 元 最 
大 数目 的 个 数 ,Layer[ 门 数组 表示 网 络 中 第 i 层 的 神经 元 个 数 。 我 们 约定 WUE 
储 网 络 的 权 系 数 , 其 中 i 表示 神经 网 络 的 第 i 层 ,j 第 i 层 网 络 的 第 j yiia k & 
示 第 i 一 1 层 的 第 /个 神经 网 络 。 那 么 , 丈 [ 癌 [7 门 [的 就 表示 第 守 层 的 第 7 个 神经 元 和 第 
i 一 1 层 的 第 个 神经 元 的 权 系数 。W[ 站 [j][Layer[i 一 1] 十 1] 表 示 第 i PA; 个 神经 元 
的 阔 值 。 

然后 ,我 们 定义 网 络 输入 和 期 望 输出 的 数组 。 定 义 二 维 数组 Input_Net[2][21] 为 网 
络 的 输入 数组 ,在 这 里 为 了 方便 , 取 21 个 样本 ,其 中 zi 取 值 从 0 开始 ,以 每 次 加 0. 05 的 
步 长 作为 下 一 个 样本 取 值 ,而 zs 的 取 值 则 与 之 相反 。 那 么 ,由 于 zk H z 各 有 21 个 值 ， 
排列 组 合 得 出 网 络 训练 样本 一 共有 21X21=421 个 样本 。 我 们 再 定义 一 个 二 维 数组 
Out_Exp[21][21] 表 示 期 望 输出 。 定 义 二 维 数组 Layer_Node[ 门 [存储 各 层 神 经 元 的 输 
出 ,表示 第 i 层 第 j 个 神经 元 的 输出 。 定 义 二 维 数组 D[i[j] 存 储 各 层 神经 元 的 误差 微分 ， 
表示 第 i 层 第 j 个 神经 元 的 误差 微分 。 代 价 函 数 为 (NetOut(Gi, 力 一 Out Explillj]’/2. H 
中 ,NetOut(i, 站 表示 输入 x 的 第 i 个 值 和 zx, 的 第 个 值 所 组 成 的 样本 时 ,网 络 的 实际 
输出 。 
确定 BP 算法 的 关键 子 程序 如 下 : 
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(1) F(double >) ,该 函数 是 该 神经 网 络 的 唯一 激发 函数 , 它 的 数学 表达 F(x) = 
1/[1 二 exp( 一 x)], 它 的 输入 为 样本 值 Netln[ J, 

(2) Initialize() 该 函数 是 网 络 初始 化 子 程序 , 它 初始 化 权 系数 和 阔 值 ,学 习 速 率 ,误差 
精度 等 。 

(3) NetWorkOut(int i,int j) ,该 函数 的 输入 为 zi 的 第 i 个 值 和 xz 的 第 7 个 值 所 组 成 的 
样本 ,在 计算 网 络 输出 的 时 候 ,同时 计算 各 层 神经 元 的 输出 ,并 保存 在 Layer_Node[L][] 数 组 
里 。 输 出 为 神经 网 络 的 实际 输出 。 

(4) AllLayer_D(int i, int j) ,该 函数 的 输入 为 输入 zi 的 第 i 个 值 和 x 的 第 j 个 值 
所 组 成 的 样本 时 的 数组 下 标 ,目的 是 计算 各 层 神经 元 的 误差 微分 ,并 把 它们 保存 在 DO 
数组 里 。 

(5) Change WO ,该 函数 用 于 根据 AllLayer_D() 计 算出 来 的 误差 微分 改变 权 系数 ， 
根据 经 典 的 BP 算法 可 以 写 出 改变 权 系数 和 浆 值 的 式 子 。 

WEJ JE] = WEJ Jk] — Study_Speed + DLi][j]* Layer_Node[i— 1][ k] 
WĻLillj]LLayerLi —1] +1] = W[š;][jJ[Layer[i —1] + 1] + Study_Speed + D[i][;] 
e Layer_Node[i— 1][Layer[i — 1] + 1] 
其 中 ,Study_Speed 为 学 习 速 率 , 取 值 为 (0,1), 如 果 太 大 ,网 络 将 会 出 现 振荡 ,而 不 能 
收敛 。 

(6) 函数 Train ) 用 于 神经 网 络 训练 。 它 调用 了 上 面 几 个 函数 来 完成 网 络 训练 。 当 

训练 完 ( 即 网 络 对 于 该 问题 是 可 以 收敛 的 ) 时 ,网 络 就 可 以 在 特定 的 误差 范围 内 通 近 函数 。 


6.5 BP 算法 的 特点 及 应 用 
6.5.1 BP 算法 特点 


BP 神经 网 络 具有 以 下 优点 。 

(1) 非 线性 映射 能 力 : BP 神经 网 络 实质 上 实现 了 一 个 从 输入 到 输出 的 映射 功能 , 数 
学 理论 证 明 三 层 的 神经 网 络 就 能 够 以 任意 精度 逼近 任何 非 线 性 连续 函数 。 这 使 得 其 特别 
适合 于 求解 内 部 机 制 复杂 的 问题 , 即 BP 神经 网 络 具 有 较 强 的 非 线性 映射 能 力 。 

(2) 自学 习 和 自 适 应 能 力 : BP 神经 网 络 在 训练 时 ,能 够 通过 学 习 自 动 提取 输入 、 输 
出 数据 间 的 “合理 规则 ”, 并 自 适 应 地 将 学 习 内 容 记忆 于 网 络 的 权 值 中 。 即 BP 神经 网 络 
具有 高 度 自学 习 和 自 适应 的 能 力 。 

(3) 泛 化 能 力 : 所 谓 泛 化 能 力 是 指 在 设计 模式 分 类 器 时 , 既 要 考虑 网 络 在 保证 对 所 
需 分 类 的 对 象 进行 正确 分 类 ,还 要 关心 网 络 在 经 过 训练 后 ,能 否 对 未 见 过 的 模式 或 有 噪声 
污染 的 模式 ,进行 正确 的 分 类 ,也 即 BP 神经 网 络 具有 将 学 习 成 果 应 用 于 新 知识 的 能 力 。 

(4) 容错 能 力 : BP 神经 网 络 在 其 局 部 的 或 者 部 分 的 神经 元 受到 破坏 后 对 全 局 的 训 
练 结果 不 会 造成 很 大 的 影响 ,也 就 是 说 即使 系统 在 受到 局 部 损伤 时 还 是 可 以 正常 工作 的 ， 
即 BP 神经 网 络 具有 一 定 的 容错 能 力 。 

BP 神经 网 络 也 暴露 出 了 越 来 越 多 的 缺点 和 不 足 , 例 如 : 
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(1) 局 部 极 小 化 问题 : 从 数学 角度 看 ,传统 的 BP 神经 网 络 为 一 种 局 部 搜索 的 优化 方 
法 , 它 要 解决 的 是 一 个 复杂 的 非 线性 化 问题 ,网 络 的 权 值 是 通过 沿 局 部 改善 的 方向 逐渐 进 
行 调整 的 ,这 样 会 使 算法 陷入 局 部 极 值 , 权 值 收敛 到 局 部 极 小 点 ,从 而 导致 网 络 训练 失败 。 
加 上 BP 神经 网 络 对 初始 网 络 权重 非常 敏感 ,以 不 同 的 权重 初始 化 网 络 ,其 往往 会 收敛 于 
不 同 的 局 部 极 小 值 ,这 也 是 很 多 学 者 每 次 训练 得 到 不 同 结果 的 根本 原因 。 

(2) BP 神经 网 络 算法 的 收敛 速度 慢 ; 由 于 BP 神经 网 络 算法 本 质 上 为 梯度 下 降 法 ， 
它 所 要 优化 的 目标 函数 是 非常 复杂 的 ,因此 ,必然 会 出 现 “锯齿 形 现象 ”, 这 使 得 BP 算法 
低 效 ;又 由 于 优化 的 目标 函数 很 复杂 , 它 必然 会 在 神经 元 输出 接近 0 或 1 的 情况 下 ,出 现 
一 些 平坦 区 ,在 这 些 区 域内 , 权 值 误差 改变 很 小 ,使 训练 过 程 几乎 停顿 ;BP 神经 网 络 模型 
中 ,为 了 使 网 络 执行 BP 算法 ,不 能 使 用 传统 的 一 维 搜索 法 求 每 次 迭代 的 步 长 ,而 必须 把 
步 长 的 更 新 规则 预先 赋予 网 络 ,这 种 方法 也 会 引起 算法 低 效 。 以 上 种 种 ,导致 了 BP 神经 
网 络 算法 收敛 速度 慢 的 现象 。 

(3) BP 神经 网 络 结构 选择 不 一 : BP 神经 网 络 结构 的 选择 至 今 尚 无 一 种 统一 而 完整 
的 理论 指导 ,一 般 只 能 根据 经 验 选 定 。 网 络 结构 选择 过 大 ,训练 中 效率 不 高 ,可 能 出 现 过 
拟 合 现象 ,造成 网 络 性 能 低 ,容错 性 下 降 , 若 选择 过 小 , 则 又 会 造成 网 络 可 能 不 收 仇 。 而 网 
络 的 结构 直接 影响 网 络 的 逼近 能 力 及 推广 性 质 。 因 此 ,应 用 中 如 何 选 择 合适 的 网 络 结构 
是 一 个 重要 的 问题 。 

(4) 应 用 实例 与 网 络 规模 的 矛盾 问题 : BP 神经 网 络 难以 解决 应 用 问题 的 实例 规模 
和 网 络 规模 间 的 矛盾 问题 ,其 涉及 网 络 容量 的 可 能 性 与 可 行 性 的 关系 问题 , 即 学 习 复 杂 性 
问题 。 

(5) BP 神经 网 络 预测 能 力 和 训练 能 力 的 矛盾 问题 : 预测 能 力也 称 泛 化 能 力 或 者 推 
广 能 力 ,而 训练 能 力也 称 逼 近 能 力 或 者 学 习 能 力 。 一 般 情况 下 ,训练 能 力 差 时 ,预测 能 力 
也 差 ,并 且 在 一 定 程度 上 , 随 着 训练 能 力 的 提高 ,预测 能 力也 会 得 到 提高 。 但 这 种 趋势 不 
是 固定 的 ,其 有 一 个 极限 , 当 达 到 此 极限 时 , 随 着 训练 能 力 的 提高 ,预测 能 力 反而 会 下 降 ， 
也 即 出 现 所 谓 的 "过 拟 合 "现象 。 出 现 该 现象 的 原因 是 网 络 学 习 了 过 多 的 样本 细节 ,导致 
学 习 出 的 模型 已 不 能 反映 样本 内 含 的 规律 ,所 以 如 何 把 握 好 学 习 的 度 , 解 决 网 络 预测 能 力 
和 训练 能 力 间 的 矛盾 也 是 BP 神经 网 络 的 重要 研究 内 容 。 

(6) BP 神经 网 络 样本 依赖 性 问题 : 网 络 模型 的 和 逼 近 和 推广 能 力 与 学 习 样本 的 典型 
性 密切 相关 ,而 从 问题 中 选取 典型 样本 实例 组 成 训练 集 是 一 个 很 困难 的 问题 。 


6.5.2 ”BP 算法 应 用 


随 着 人 工 神经 网 络 技术 的 不 断 成 熟 和 发 展 ,神经 网 络 的 智能 化 特征 与 能 力 使 其 应 用 
领域 日 益 扩 大 ,许多 用 传统 信息 处 理 方法 无 法 解决 的 问题 采用 神经 网 络 后 都 取得 了 良好 
的 效果 ,特别 是 在 工程 领域 中 得 到 了 广泛 的 应 用 。 神 经 网 络 目前 主要 应 用 于 以 下 几 个 
领域 。 

(1) 信息 领域 : 作为 一 种 新 型 智能 信息 处 理 系统 ,神经 网 络 应 用 于 信号 处 理 、 模 式 识 
别 , 数 据 压缩 等 方面 。 
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(2) 自动 化 领域 : 神经 网 络 和 控制 理论 与 控制 技术 相 结合 ,发 展 为 自动 控制 领域 的 一 个 前 
沿 学 科 一 一 神经 网 络 控制 。 在 系统 辨识 .神经 控制 器 ,智能 检测 等 方面 取得 了 发 展 。 

O 工程 领域 : 例如 汽车 工程 ,军事 工程 ,化 学 工程 ,水利 工 程 等 。 

(4) 医学 领域 : 在 医学 领域 ,神经 网 络 可 用 于 检测 数据 分 析 、 生 物 活性 研究 、 医 学 专 

O 经 济 领域 : 由 于 神经 网 络 具有 优化 计算 、 聚 类 和 预测 等 功能 ,在 商业 界 得 到 了 广 
泛 的 应 用 。 金 融 市 场 采用 神经 网 络 建立 信用 卡 和 货币 交易 模型 ,用 于 识别 信贷 客户 、 股 票 
预测 和 证 券 市 场 分 析 等 方面 。 


6.6 小 结 


本 章 首先 介绍 了 生物 与 人 工 神经 元 模型 ,然后 简单 列举 了 主要 的 神经 网 络 模型 ,重点 
剖析 了 BP 算法 ,阐述 了 它 的 原理 、 结 构 . 工 作 过 程 。 本 章 还 举 了 两 个 简单 实例 ,使 读者 了 
解 BP 算法 的 具体 工作 过 程 。 最 后 介绍 了 BP 算法 的 特点 以 及 应 用 。 


思考 题 


. 讨论 BP 神经 网 络 处 理 分 类 问题 的 原理 ,并 举例 说 明 此 网 络 的 应 用 。 
. 简 述 BP 神经 网 络 算法 的 优点 和 不 足 。 
. 简 述 BP 神经 网 络 算法 的 学 习 过 程 。 
.对 如 图 6-13 所 示 的 BP 神经 网 络 , 学 习 系数 ?一 1, 各 点 的 阔 值 4 一 0。 作 用 函数 为 
| 
1. z<1 
输入 样本 zi 二 1,zz 二 0, 输 出 节点 x 的 期 望 输出 为 1, 对 于 第 次 学 习 得 到 的 权 值 分 别 为 
wn(k) 二 0,wiz(k) 二 2,wa(k) 二 2,w2o(k) 二 1,T1(k) 二 1,Ts(k) 二 1, 求 第 次 和 kk 十 1 次 
学 习 得 到 的 输出 节点 值 xe) 和 <z(k 十 1)( 写 出 计算 公式 和 计算 过 程 ) 。 


> 


f(x) = 








wa(k)=1 





wai(k)=2 wia(k)=2 






srl x0 
图 6-13 BP 神经 网 络 
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第 7 章 支持 向 量 机 


7.1 基本 概念 
7.1.1 支持 向 量 机 理论 基础 


在 统计 学 习 理 论 基础 之 上 发 展 起 来 的 支持 向 量 机 (Support Vector Machine,SVM) 
算法 ,是 一 种 专门 研究 有 限 样本 预测 的 学 习 方法 。 与 传统 统计 学 相 比 ,SVM 算法 没有 以 
传统 的 经 验 风 险 最 小 化 原则 作为 基础 ,而 是 建立 在 结构 风险 最 小 化 原理 的 基础 之 上 ,发 展 
成 为 一 种 新 型 的 结构 化 学 习 方 法 ,统计 学 习 理 论 是 支持 向 量 机 理论 发 展 的 基础 ,为 了 进 一 
步 深入 研究 SVM, 需 要 对 统计 学 习 的 核心 理论 进行 深入 理解 。 


7.1.2 统计 学 习 核心 理论 


统计 学 习 理 论 被 认为 是 目前 针对 小 样本 统计 估计 和 预测 学 习 的 最 佳 理 论 , 它 从 理论 
上 较 系统 地 研究 了 经 验 风 险 最 小 化 原则 成 立 的 条 件 ,有 限 样本 下 经 验 风 险 与 期 望 风险 的 
关系 ,及 如 何 利用 这 些 理论 找到 新 的 学 习 原 则 。 一 般 来 说 ,经 验 风险 最 小 并 不 一 定 意味 着 
期 望 风险 最 小 ;学 习 的 复杂 性 不 但 与 学 习 目 标 有 关 , 而 且 还 要 考虑 样本 集 的 有 限 性 。 这 就 
是 有 限 样本 下 学 习 机 器 的 复杂 性 和 泛 化 能 力 之 间 的 了 矛盾。 因此, 我们 需要 一 种 新 的 学 习 
原则 来 代替 传统 的 经 验 风险 最 小 化 原则 , 它 能 够 指导 我 们 在 有 限 样本 或 小 样本 的 情况 下 
获得 具有 优异 泛 化 能 力 的 学 习 机 器 。 结 构 风险 最 小 归纳 原理 的 出 现 ,一 举 解决 了 这 个 难 
题 , 它 包括 了 学 习 的 一 致 性 .边界 理论 和 结构 风险 最 小 化 原理 等 部 分 。 它 所 提出 的 结构 风 
险 最 小 化 归纳 学 习 过 程 克服 了 经 验 风 险 最 小 化 的 缺点 ,获得 了 更 好 的 学 习 效 果 。 


7.1.3 学习 过 程 的 一 致 性 条 件 


学 习 过 程 的 一 致 性 结论 是 统计 学 习 理 论 的 基础 ,也 是 与 传统 渐 近 统计 学 的 基本 联系 
所 在 。 所 谓 学 习 过 程 的 一 致 性 (consistency) ,就 是 指 当 训练 样本 数目 趋 于 无 穷 大 时 ,经 验 
风险 的 最 优 值 能 够 收敛 到 真实 风险 的 最 优 值 ,只 有 满足 学 习 过 程 的 一 致 性 条 件 ,才能 保证 
在 学 习 样 本 无 穷 大 时 ,经 验 风险 最 小 化 原则 下 得 到 的 最 优 学 习 机 器 的 性 能 趋 近 于 期 望 风 
险 最 小 时 的 最 优 结果 。 只 有 满足 一 致 性 条 件 ,才能 说 明 学 习 方 法 是 有 效 的 。 经 验 风险 和 
期 望 风险 之 间 的 这 种 关系 ,可 以 用 图 7-1 表述 ,其 中 R(a) 为 实际 可 能 的 最 小 风险 。 

定义 7.1: (一 致 性 ) (ayi). (zz,yz),…, (ZXi,y;) 是 按照 概率 分 布 F(x,y) 得 到 的 
独立 同 分 布 的 观测 样本 集合 , f(x,a) 是 函数 集 T 中 使 得 经 验 风险 Re(w ) 最 小 化 的 预 
测 函 数 。 若 对 任意 的 s 之 0, 有 
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图 7-1 经 验 风险 和 期 望 风险 关系 示意 图 
limP([R(a,)— infyerR (a)]> e) = 0 (7-1) 
limP { [Reno (a1 )— nfyerR (a) ]> e} = 0 (7-2) 
则 称 经 验 风 险 最 小 化 原则 对 于 函数 集 p MAR Fy E EMRA 
验 风 险 最 小 化 是 一 致 的 ,那么 它 必须 提供 一 个 函数 序列 f(z,a) ,1 二 1,2,… ,使 得 期 望 风 
念 和 经 验 风 险 收 全 到 一 个 可 能 的 最 小 风险 值 。 


定理 7, 1: 设 存在 常数 A 和 B, 使 得 对 于 函数 集 T= {f(zx,a) |a€A}) 的 所 有 函数 和 
给 定 的 概率 分 布 F(z,y), 有 下 列 不 等 式 成 立 ， 


A< [LEs f(r JdF (zy)< By Që Á (7-3) 


则 经 验 风 险 最 小 化 原则 一 致 性 的 充分 必要 条 件 是 : 经 验 风险 Remp (a ) 在 整个 函数 集 卫 上 
的 一 致 单 边 收敛 到 期 望 风险 R(a), 即 

limP {sup[R(a)— Ras (a1) ]> €) = 0, fET, Ve>0 (7-4) 
定理 7.1 是 Vapnik 和 Chervonenkis 于 1989 年 提出 的 ,在 统计 学 习 理 论 中 具有 非常 重要 
的 地 位 ,因此 称 为 学 习 理 论 的 关键 定理 。 它 把 学 习 一 致 性 问题 转化 为 一 致 收敛 问题 ,解释 
了 经 验 风险 最 小 化 原则 在 什么 条 件 下 可 以 保证 是 一 致 的 ,但 它 并 没有 给 出 什么 样 的 函数 
集 才能 够 满足 这 些 条 件 ,也 没有 说 明 如 何 对 事件 sup[R(a) 一 Raw (ai) ]2>e, FET 出 现 的 
概率 进行 估计 。 为 此 统计 学 习 理论 定义 了 一 些 指 标 来 衡量 函数 集 的 性 能 ,其 中 最 重要 的 
是 函数 集 的 VC 维 。 


7.1.4 函数 集 的 VC 维 


VC 维 是 统计 学 习 理论 中 的 一 个 核心 概念 , 它 是 目前 为 止 描述 函数 集 学 习性 能 最 好 
的 指标 ,并 且 在 计算 函数 集 与 分 布 无 关 的 泛 化 能 力 解 中 起 着 重要 作用 。 指 示 函 数 集 VC 
维 的 直观 定义 是 对 于 一 个 指示 函数 集 ,如 果 存 在 个 样本 能 够 被 函数 集 里 的 函数 按照 所 
有 可 能 的 2* 种 组 合 分 成 两 类 , 则 称 函数 集 能 够 把 样本 数 为 h 的 样本 集 打 散 (shattering)。 
函数 集 的 VC 维 就 是 它 能 打 散 的 最 大 样本 数目 4。 若 对 任意 数目 的 样本 ,函数 集 下 都 有 
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函数 能 将 它们 打 散 , 则 称 函数 集 的 VC 维 是 无 穷 大 的 ,为 此 图 7-2 已 说 明 。 
GVO A E Š Ó NO © 
° 9 x 4 
okolo o Š o oj ó 
o 1 ° O ° 


图 7-2 打 散 三 个 样本 





不 难看 出 ,VC 维 实质 上 反映 了 函数 集 的 学 习 能 力 。 一 般 而 言 ,VC 维 越 大 , 则 学 习 机 
器 越 复杂 ,学 习 容量 也 就 越 大 。 令 人 遗憾 的 是 ,目前 尚 没有 通用 的 关于 如 何 计算 任意 函数 
集 的 VC 维 的 方法 ,只 有 一 些 特殊 的 函数 集 的 VC 维 可 以 准确 地 知道 。 例 如 ,n 维 空间 中 
的 任意 线性 函数 集 的 VC 维 是 十 1, 而 对 于 一 些 比较 复杂 的 学 习 机 器 (如 神经 网 络 ) ,其 
VC 维 除 了 与 函数 集 选 择 有 关外 ,通常 也 受 学 习 算 法 等 因素 的 影响 ,确定 将 更 加 困难 。 实 
际 应 用 中 ,通常 采用 精妙 的 数学 技巧 避免 直接 求解 VC 维 。 


7.1.5 泛 化 误差 界 


统计 学 习 理论 从 VC 维 的 概念 出 发 ,推导 出 关于 经 验 风险 和 期 望 风险 之 间 关系 的 重 

要 结论 , 称 为 泛 化 误差 界 。 这 些 界 是 分 析 学 习 机 器 性 能 和 发 展 新 的 学 习 算法 的 重要 基础 。 

统计 学 习 理论 中 给 出 了 以 下 估计 真实 风险 的 不 等 式 : 对 于 任意 aE T(T 是 抽象 参数 集 
合 ) ,以 至 少 1 一 的 概率 满足 下 列 不 等 式 ; 

R(a)< Rap (0)+ 0(h/1) (7-5) 


= aI p Eng 
i š 








其 中 ,图 OA/AO) 


Re (a) 表示 经 验 风险 ; y(h/1) 称 为 置信 风险 ;/ 代表 样本 个 数 ,参数 hh 则 为 一 个 函数 集合 
的 VC 维 。 

上 述 不 等 式 (也 称 为 定理 ) 说 明了 学 习 机 器 的 期 望 风险 ,是 由 两 部 分 组 成 的 : 第 一 部 
分 是 经 验 风险 (学 习 误 差 引 起 的 损失 ) ,依赖 于 预测 函数 的 选择 ; 另 一 部 分 称 为 置信 范围 
是 关于 函数 集 VC k h 的 增 函 数 。 显 然 ,如 果 SEK. 则 期 望 风险 信 自 经 验 风险 值 决 
定 , 此 时 为 了 最 小 化 期 望 风险 ,我 们 只 需要 最 小 化 经 验 风险 ;相反 ,如 果 L/h 较 小 ,经 验 风 
险 最 小 并 不 能 保证 期 望 风险 一 定 最 小 ,此 时 我 们 必须 同时 考虑 不 等 式 (7-5) 右 端的 两 项 
之 和 , 称 为 结构 风险 。 


























7.1.6 结构 风险 最 小 化 归纳 原理 


结构 风险 最 小 化 归纳 原理 的 基本 想法 是 : 如 果 要 求 风险 最 小 ,就 需要 不 等 式 (7-5) 中 
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的 右 端 两 项 相互 权衡 ,共同 趋 于 最 小 ;另外 ,在 获得 学 习 模型 经 验 风险 最 小 的 同时 ,希望 学 
习 模 型 的 推广 能 力 尽 可 能 大 ,这 样 就 需要 户 值 尽 可 能 小 , 即 置信 风险 尽 可 能 小 。 根 据 风险 
估计 不 等 式 , 如果 固定 训练 样本 数目 ! 的 大 小 , 则 控制 风险 R (a) 的 参数 有 两 个 : 
Remp (xc) 和 六 。 其 中 ,经 验 风险 Re (c) 依 赖 于 学 习 机 器 所 选 定 的 函数 (a,x) ,这 样 ,我 们 
就 可 以 通过 控制 来 控制 经 验 风 险 。VC 维 六 依赖 于 学 习 机 器 所 工作 的 函数 集合 。 为 了 
获得 对 有 的 控制 ,可 以 将 函数 集合 结构 化 ,建立 与 各 函数 子 结构 之 间 的 关系 ,通过 控制 
对 函数 结构 的 选择 来 达到 控制 VC E h 的 目的 。 具体 地 ,运用 以 下 方法 将 函数 集合 
{f(z,o) |cET} 结 构 化 ,考虑 函数 的 嵌 套 子 集 决 定 的 函数 集合 , 即 S C S,CS,C C 


SiC…CS,, 其 中 Si={f(zx,o)|oET), 并 且 有 S* = Us,. 

结构 S* 中 的 任何 元 素 s, 拥有 一 个 有 限 的 VC H hs H hi 过 hs 壹 … 壹 h,。 如 果 给 定 
一 组 样本 (zi ,yw )， (zz,y% )，，(zivy) ,结构 风险 最 小 化 原理 就 是 在 函数 子 集 S, hik: 
择 一 个 函数 Fo ,z) 来 最 小 化 经 验 风险 (通常 它 随 着 子 集 复杂 度 的 增加 而 减 小 ), 同 时,S， 
确保 置信 风险 是 最 小 的 。 选 择 最 小 经 验 风险 与 置信 风险 之 和 最 小 的 子 集 就 可 以 达到 期 户 
风险 最 小 ,这 个 子 集中 使 经 验 风险 最 小 的 函数 就 是 要 求 的 最 优 函 数 ,这 种 思想 称 为 结构 风 
维 最 小 化 。 根 据 以 上 的 分 析 , 可 以 得 到 两 种 运用 结构 风险 最 小 化 归纳 原理 构造 学 习 机 器 
的 思路 。 

(1) 给 定 一 个 函数 集合 ,按照 上 述 方法 组 织 一 个 说 套 的 函数 结构 ,在 每 个 子 集 中 求 取 
最 小 经 验 风险 ,然后 选择 经 验 风险 与 置信 风险 之 和 最 小 的 子 集 。 但 是 , 当 子 集 数目 较 大 
时 ,该 方法 较为 费时 ,甚至 不 可 行 

(2) 构造 函数 集合 的 某 种 结构 ,使 得 在 其 中 的 各 函数 子 集 均 可 以 取得 最 小 的 经 验 风 
险 。 例 如 使 训练 误差 为 0, 然 后 ,选择 适当 的 子 集 使 得 置信 风险 最 小 ,此 时 相应 的 函数 子 
集中 使 得 经 验 风 险 最 小 的 函数 就 是 所 求解 的 最 优 函 数 。 支 持 向 量 机 就 是 这 种 思想 的 具体 
体现 。 


7.2 支持 向 量 机 原理 
7.2.1 支持 向 量 机 核心 理论 


支持 向 量 机 (Support Vector Machine, SVM) 是 在 统计 学 习 理 论 的 VC 维 理论 和 结 
构 风险 最 小 原理 的 基础 上 发 展 起 来 的 一 种 新 的 机 器 学 习 方法 。 它 根据 有 限 的 样本 信息 在 
模型 的 复杂 性 ( 即 对 特定 训练 样本 的 学 习 精 度 ) 和 学 习 能 力 ( 即 无 错误 地 识别 任意 样本 的 
能 力 ) 之 间 寻 求 最 佳 折 中 ,以 期 获得 最 好 的 推广 能 力 。 目 前 SVM 已 初步 表现 出 很 多 优 于 
已 有 方法 的 性 能 ,一 些 学 者 认为 ,SVM 正在 成 为 继 神经 网 络 之 后 新 的 研究 热点 ,并 将 推动 
机 器 学 习 理 论 和 技术 的 重大 发 展 。 








7.2.2 最 大 间隔 分 类 超 平面 


支持 向 量 机 最 初 是 针对 线性 可 分 情况 下 的 二 类 模式 分 类 问题 而 提出 的 。 给 定 观测 样 





149| 














(第 7 章 


本 集 S={(ziy), (zyy)，)CXX( 一 1， H 
1), Rh XCR" 称 为 输入 空间 或 输入 特征 空 
BJ.y € {一 1,1) 是 样本 的 类 标记 。 分 类 的 目 H, 
的 就 是 找 一 个 分 类 超 平面 将 正 负 两 类 完全 分 
开 , 如 图 7-3 所 示 。 
Ë G= (w + z+b=0|w,z€ X.b€ R) ÆI 
有 能 够 对 S 完全 正确 分 类 (经 验 风 险 为 0) 的 
超 平面 的 集合 。 其 中 。 ”是 内 积 运算 符 。“ 完 
全 正确 分 类 ”的 意义 是 : 任意 一 个 法 向 量 w( 不 
失 一 般 性 , 令 | w | 二 1) 和 常数 5b 所 确定 分 类 
HFE H, CHERE S 的 分 类 结果 为 : 
wexri+b20, # y; = 十 1 (7-6) 
we。Xi 十 b 志 0， 车 y; = 一 1 《1-7 
在 所 有 的 超 平面 中 ,最 大 间隔 分 类 器 要 寻找 的 是 一 个 最 优 超 平面 (Optimal 
Hyperplane)。 这 个 最 优 超 平面 是 指 满足 两 类 的 分 类 间隔 (Margin) 最 大 的 超 平面 。 分 类 
间隔 被 定义 为 : 每 类 距离 超 平面 最 近 的 样本 到 超 平面 的 距离 之 和 。 
此 分 类 间隔 可 以 经 过 如 下 的 计算 得 到 : 设 玉 为 最 优 超 平面 ,在 五 两 侧 分 别 作 一 个 经 
过 距离 H 最近 的 样本 并 且 平行 于 互 的 超 平面 , 记 为 H 和 瓦 *。 这 两 个 超 平面 的 表达 式 
分 别 为 : 





margin=2/|m| 


图 7-3 线性 可 分 的 分 类 超 平面 

















Hi:y=w*x+b=1, H::y=w.x+b 1 (7-8) 
显然 , 超 平面 瓦 :> 一 w，x 十 0 一 0 仍然 属于 G。 我 们 把 超 平面 H, 和 H, 之 间 的 距离 
称 为 H 的 "分 类 间隔 A”, 并 将 H, 和 H, 称 为 H 的 “间隔 超 平面 "或 者 "间隔 边界 ”。 容 易 
计算 A=2/ | w|| =d+. 
所 谓 的 “最 大 间隔 分 类 超 平面 "就 是 在 正确 分 类 所 有 学 习 样 本 ( 即 满足 约束 条 件 
yi(w，Zzi 十 5) 宇 1 的 前 提 下 ) ,使 得 分 类 间隔 A 取 最 大 值 的 超 平面 ,例如 ,图 7-3 中 所 示 的 
Fh H. 


7.2.3 支持 向 量 机 


1. 数据 线性 可 分 的 情况 
为 了 求解 线性 可 分 情况 下 的 最 大 间隔 超 平面 ,需要 在 满足 约束 yi Cw e zi 十 bj 之 1， 
i 二 1,2,…,n 的 前 提 下 最 大 化 间隔 ,等 价 于 以 下 的 优化 问题 : 


minns + || wl? (7-9) 


ARRE y;[w* zi 十 6] 写 1,i=1,2,*…,n。 
这 是 一 个 典型 的 线性 约束 凸 二 次 规划 问题 , 它 唯一 确定 了 最 大 间隔 分 类 超 平面 。 引 
AMH HRT a; 宇 0,i 二 1,2,…,n, 根 据 目标 函数 及 其 约束 条 件 建立 Lagrange 函数 。 
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LOwba) 一 立 lwl? Daly (w. zit+6)—1] (1-10) 
, MENE 2 2 aa 
将 Lagrange 函数 求 关 于 w.b 的 极 小 值 ， 即 由 了 天 一 0, 和 一 0, 得 到 以 下 算式 : 


Daiyi =0, w= Jayit: (7-11) 
将 上 式 代 入 Lagrange 函数 ， s 


1 -15 Deasy iYi (Tix; ) (71-12) 
考虑 Wolf 对 偶 性 质 ， 即 可 得 到 优化 问题 的 对 偶 问 是 ， 
max— +> > aajyiyj (zur; 十 Da: (7-13) 
s.t Dap =0 


ai 2 0,i = 1,2,.,n 
可 见 对 偶 问 题 仍 然 是 线性 约束 的 凸 二 次 优化 ,存在 唯一 的 最 优 解 a”。 
根据 约束 优化 问题 的 KKT(Karush-Kuhn-Tucker) 条 件 ,优化 最 优 解 w“* 时 ,应 满足 
如 下 条 件 : 
ai (yi(w" e ri +b*)—1)=0, i=1,2,,n (7-14) 
由 于 只 有 少 部 分 观测 样本 z; 满足 y;(w”，xzi 十 b" ) 二 1, 它们 对 应 的 Lagrange F a > 
0, 而 剩余 的 样本 满足 oz =0。 我 们 称 解 a? 的 这 种 性 质 为 “稀疏 性 ”。 
通常 我 们 把 a; >00 的 观测 样本 称 为 支持 向 量 (Support Vector) ,它们 位 于 间隔 边界 
Hi RH: 上 。 结 合 公式 (7-11) 和 公式 (7-14) 可 知 ,w 和 4b" 均 由 支持 向 量 决定 。 因 此 ,最 
大 间隔 超 平面 w*，x; 十 6" =0 完全 由 支持 向 量 决定 ,而 与 剩余 的 观测 样本 无 关 。 
这 时 就 可 以 得 到 如 下 的 最 优 决策 函数 或 者 分 类 器 : 





f(a) = sgn(w' + x+ b) = sgn( Jay: e xi) +b") (7-15) 
i=1 


Vapnik 把 上 式 称 为 “线性 硬 间隔 支持 向 量 机 ”, 当 样本 线性 不 可 分 时 ,由 于 不 存在 使 
得 分 类 间隔 A 取 正 值 的 超 平面 ,严格 要 求 所 有 样本 被 正确 分 类 的 “ 硬 间隔 ”方法 是 行 不 通 
的 。 换 句 话 说 ,必须 适当 松弛 公式 (7-6) 和 公式 (7-7) 中 的 约束 条 件 。 通 过 引入 松弛 变量 
6 宇 0,i,… on, 可 以 得 到 “软化 ”的 新 约束 条 件 : 
yw td > 1— 6 (7-16) 
显然 当 G 充分 大 时 ,样本 (zi,yi) 总 可 以 满足 上 述 约 束 条 件 , 如 图 7-4 所 示 。 


但 另 一 方面 ,和 项 De 与 样本 的 分 类 错误 相关 并 且 体 现 了 经 验 风险 ,必须 限制 它 的 
大 小 。 因 此 ,我 们 得 到 “软化 "后 的 最 大 间隔 分 类 器 的 优化 问题 : 


min, 4 lwli +c (1-17) 
i=l 
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图 7-4 引入 松弛 因子 的 SVM 两 分 类 情形 


yi(w ° z, +b) 之 1 一 中 (7-18) 
其 中 , 实 常数 C>0 称 为 罚 参 数 , 它 在 分 类 器 的 复杂 度 和 经 验 风险 之 间 进 行 权衡 。 我 们 把 
上 述 问题 确定 的 学 习 机 称 为 线性 软 间隔 支持 向 量 机 ”。 


2. 数据 非 线性 可 分 的 情况 


经 典 非 线性 方法 ,如 神经 网 络 模 型 中 ,解决 非 线性 可 分 问题 的 一 个 方法 是 利用 多 层 感 
知 器 ,其 实质 就 是 将 近似 函数 集 由 简单 线性 指示 函数 扩展 成 由 许多 线性 指示 函数 番 加 成 
的 一 个 更 为 复杂 的 近似 函数 集 ,再 用 S 形 函 数 来 近似 指示 函数 中 的 单位 阶 路 函数 (或 符号 
函数 ), 从 而 得 到 使 经 验 风 险 极 小 化 的 一 种 容易 操作 的 算法 。 但 是 ,这 种 方法 存在 着 容易 
陷入 局 部 极 小 点 ,网 络 结构 设计 依赖 于 先 验 知识 以 及 泛 化 能 力 较 差 等 问题 。 解 决 线性 不 
可 分 类 问题 的 另 一 个 途径 (支持 向 量 机 算法 ) 是 用 “ 超 曲 面 "代替 “ 超 平面 ”, 找 一 个 能 够 正 
确 分 类 所 有 观测 样本 的 最 大 间隔 超 曲 面 ,如 图 7-5 所 示 。 








图 7-5 SVM 线性 不 可 分 的 情况 


但 是 ,“ 最 大 间隔 超 曲 面 " 是 难以 描述 和 直接 求解 的 。 通 过 引入 由 输入 空间 X 到 某 个 
高 维 空间 五 (一 般 是 Hibert 空间 ) 的 非 线 性 映射 6 (z) 一 X-~~ 互 ,能 够 把 X 中 寻找 非 线性 
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的 “最 大 超 曲面 "问题 转化 为 在 高 维 空间 H 中 求解 线性 的 “最 大 间隔 超 平面 ”问题 ,从 而 更 
容易 给 出 具体 的 模型 进行 求解 。 

其 中 ,需要 避免 在 H 中 进行 高 维 的 内 积 运 算 @ (z)。@(y)。 如 果 存 在 输入 空间 中 
定义 的 某 个 核 函 数 K (aar), HRE K (irj) =P) e Oy). A EA 
KCzizi) 的 值 而 避免 H 中 的 内 积 运算 ,并 且 不 需要 知道 映射 函数 。 
因此 ,综合 前 面 两 种 处 理 数据 非 线 性 可 分 问题 的 思想 ,得 到 更 常用 的 “ 非 线性 软 间 
隔 支 持 向 量 机 ”, 简称“ 支持 向 量 机 ”。 它 的 原始 优化 问题 (P) 和 对 偶 优 化 问题 (D) 分 别 
如 下 : 





原始 优化 问题 (P): 
Mins., z?! wll? +c (7-19) 
st ylw. Br)+D Sl G G>0i=1,2, n 
对 偶 优 化 问题 CD) : 
max, Ya +Y Peay kc) (7-20) 


st Dayi=0, C2>a2>04i=1,2,..n 


i=1 


求解 对 偶 问题 的 最 优 解 a 后 ,支持 向 量 机 的 决策 函数 为 
f(x) = sgn(w"，@Cr) 十 请 ) = sgn( Da +b') (7-21) 


同样 根据 KKT 条 件 , 优 化 对 偶 优化 问题 (CD) 取 最 优 解 时 应 该 满足 如 下 条 件 : 
好 [yw。G@(zi) 十 六 ) 一 1 十 和 车 } 一 0， 守 一 1 2， (7-22) 
(C—a Xi = 0 (7-23) 
结合 公式 (7-20) 的 约束 条 件 和 公式 (7-22) ,公式 (7-23), 可 以 推导 出 如 下 重要 结论 : 
(1) Ea =0, WA g = 二 0, 且 对 应 的 样本 zi 一 定 不 是 支持 向 量 。 
(2) 若 0< 迪 <C, 则 有 各 =0 fll yw” * Dlr) +-b* )==1, 且 对 应 的 样本 称 为 “ 非 边 
界 支持 向 量 机 ”。 
G) Far =C WA G =0 A yw e Dad Ho )<1, 且 对 应 的 样本 称 为 “边界 支持 
向 量 机 ”。 
可 见 ,最 优 解 的 ai“ 稀 政 ”性 质 同样 满足 ,支持 向 量 机 的 决策 函数 完全 由 wz 20 的 支 
持 向 量 决定 。 








7.2.4 核 函 数 分 类 


对 支持 向 量 机 而 言 , 核 函数 的 构造 和 选择 尤其 重要 。 在 满足 Mercer 条 件 的 情况 下 ， 
核 函数 可 以 有 多 种 形式 供 选 择 。 目 前 ,在 SVM 理论 研究 与 实际 应 用 中 ,最 常 使 用 的 有 以 
下 4 类 核 函数 : 

(1) 线性 核 函数 : Kx r) = 二 x Tio 





153| 














《数据 挖掘 算法 原理 与 实现 (第 2 版 )) = 7 = 


(2) 多 项 式 核 函 数 : K(x,xi) 二 [(x,xi) 十 1]*,q 是 自然 数 。 此 时 得 到 的 支持 向 量 机 
是 一 个 4 阶 多 项 式 分 类 器 。 


(3) Gauss 径 向 基 核 函数 : Kz) =exp( zF | x—a: || *).a>0, 得 到 的 支持 向 量 


机 是 一 种 径 向 基 范 数 分 类 器 。 

(4) Sigmoid $% Kğ: K(x,zi) 二 tanh(a(x,Xi) 十 1),a,t 是 常数 ,tanh 是 Sigmoid 
函数 。 

支持 向 量 机 实现 的 其 实 是 一 个 两 层 的 感知 器 神经 网 络 ( 故 又 称 为 “神经 网 络 核 函 
数 ”), 它 包含 了 一 个 隐 层 , 隐 层 节点 数 是 由 算法 自动 确定 的 ,而 且 算法 不 存在 困扰 神经 网 
络 的 局 部 极 小 点 的 问题 。 

其 他 形式 的 核 函数 ,例如 傅 里 叶 级 数 核 函数 .小 波 核 函 数 等 也 都 是 特定 于 具体 应 用 而 
产生 的 优化 算 子 ,应 用 也 较为 广泛 。 不同 的 核 函 数 所 产生 的 性 能 是 不 同 的 。 对 于 某 一 具 
体 问题 ,如 何 选 择 核 函 数 的 形式 还 没有 一 个 指导 原则 。 即 使 已 经 选 定 了 某 一 类 核 函数 ,其 
相应 的 参数 (如 多 项 式 核 函 数 的 阶 次 9、 径 向 基 核 函 数 核 半 径 o 等 ) 也 需要 选择 和 优化 。 
Keerthi 证 明 , 径 向 基 函 数 核 在 适当 选择 参数 时 可 以 代替 多 项 式 核 ,而 且 径 向 基 函 数 核 可 
以 将 样本 映射 到 一 个 更 高 维 的 空间 ,可 以 处 理 当 类 标签 (Class Labels) 和 特征 之 间 的 关系 
是 非 线性 时 的 样 例 。 另 外 ,由 于 参数 的 个 数 直接 影响 到 模型 选择 的 复杂 性 ,而 径 向 基 核 函 
数 只 有 一 个 待定 参数 o, 与 别 的 核 函 数 相 比 有 具有 参数 少 的 优点 ,一 般 情况 下 选用 径 向 基 范 
数 核 的 效果 不 会 太 差 。 


7.3 支持 向 量 机 实例 分 析 


将 支持 向 量 机 用 到 成 矿 的 定性 预测 上 。 下 面 介绍 思路 : 成 矿 预测 是 一 项 理论 和 实践 
紧密 结合 的 探索 性 极 强 的 综合 研究 工作 ,预测 理论 和 方法 是 提高 找 矿 效果 的 首要 条 件 , 传 
统 的 成 矿 预测 模型 如 人 工 神经 网 络 , 它 作为 高 度 非 线性 动力 系统 ,具有 非 线 性 映射 ,容错 
性 好 和 自学 习 适 应 强 等 特征 。 特 别 是 BP 神经 网 络 ,在 遥感 图 像 分 类 与 识别 ,资源 预测 等 
地 学 领域 均 有 广泛 应 用 。 神 经 网 络 的 关键 技术 是 网 络 结构 、 权 值 参 数 及 学 习 规 则 的 设计 ， 
但 目前 神经 网 络 的 结构 需要 事先 指定 或 应 用 启发 式 算法 在 训练 过 程 中 寻找 ,并 且 网 络 系 
数 的 调整 和 初始 化 方法 没有 理论 指导 ,训练 过 程 易于 陷入 局 部 极 小 、 过 学 习 、 收 敛 速度 慢 。 
SVM 是 一 种 新 兴 的 机 器 学 习 方法 , 它 具 有 强 有 力 的 非 线 性 建 模 能 力 和 良好 的 泛 化 性 能 ， 
能 解决 小 样本 、 非 线性 、 高 维 数 和 局 部 极 小 点 等 实际 问题 。 算 法 最 终 转化 为 二 次 寻 优 问 
题 ,从 理论 上 得 到 全 局 最 优 解 , 有 效 避 免 了 局 部 极 值 问题 ,同时 通过 非 线性 变换 和 核 函 数 
巧妙 解决 了 高 维 数 问题 ,使 得 算法 复杂 度 与 样本 维 数 无 关 , 加 速 了 训练 学 习 速度 ;另外 它 
能 根据 有 限 样本 信息 在 模型 的 复杂 型 和 学 习 能 力 之 间 寻 求 最 佳 折 中 ,保证 其 有 较 好 的 泛 
化 能 力 。 下 面 以 一 个 例子 来 验证 ,算法 流程 如 图 7-6 所 示 。 

第 一 步 : 原始 数据 准备 。 

成 矿 作用 的 复杂 性 决定 了 成 矿 信息 往往 具有 多 解 性 和 隐 含 性 , 以 云南 某 旧地 质 采 样 
综合 数据 为 研究 对 象 ,将 基于 SVM 的 模型 引入 地 质数 据 的 处 理 和 解释 。 实 际 资料 表明 ， 
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确定 算法 相关 参数 
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数据 生成 
生成 模型 
文件 文件 





系统 处 理 输入 数据 执行 SYM 
回归 算法 处 理 数据 输出 














系统 处 理 回归 结束 
图 7-6 算法 流程 图 


该 地 区 银 、 砷 、 钢 、 饮 \ 铜 欠 , 锌 、 东 组合 异 常 能 够 较 好 地 指示 矿 化 富 集 带 , 选 取 此 地 空间 中 
8 个 化 学 元 素 中 具有 代表 性 的 元 素 作为 输入 数据 ,选择 矿 化 程度 作为 输出 。 

第 二 步 : 数据 预 处 理 。 

在 数据 准备 阶段 主要 完成 对 预测 指标 的 选 定 和 已 有 的 历史 数据 资料 的 收集 工作 ,并 
确定 成 矿 因素 的 输入 和 输出 量 。@ 输 入 向 量 x 的 属性 及 含义 : 建 模 时 对 样本 中 的 因子 进 


行 归 一 化 处 理 (减少 各 个 因子 之 间 的 量 级 差别 ) | = minta) 将 样本 归 


max(xi)—min(xi) 
化 到 区 间 [0,1],x! 代 表 Zn 元 素 的 含量 ; 加 对 应 的 输出 Y 为 两 类 ,有 矿 与 无 矿 , 用 1 代表 
有 矿 ,0 代表 无 矿 , 如 表 7-1 所 示 。 
表 7-1 数据 预 处 理 阶 段 




















标号 Zn 标号 Zn 矿 化 (Y) 
í A 6 = 1 
z EA 7 = 0 
3 a$ 8 z 1 
4 EA 9 z 1 
5 = 10 Tio 1 

















通过 某 矿 m 的 前 & 矿物 的 历史 数据 来 预测 mm 矿物 的 矿 化 程度 , 即 对 下 面 的 函数 进行 
预测 : yw 一 /zw-iyzo-2，…zo-e)( 这 其 实 是 一 个 回归 模型 ), 其 过 程 就 是 : 依据 自 变 量 
和 因 变 量 的 历史 统计 资料 进行 计算 ,在 此 基础 上 建立 回归 分 析 方程 , 即 回归 分 析 预 测 
模型 。 
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第 三 步 : SVM 成 矿 预 测 模型 。 

因为 构造 SVM 的 基础 是 Mercer 定理 ,所 以 建立 支持 向 量 机 的 核 函 数 必须 满足 
Mercer 定理 条 件 。 在 该 例子 中 采用 RBF 核 函数 作为 基本 函数 建立 SVM 回归 模型 。 

RBF 核 函 数 的 形式 为 : K (x.x) 二 exp (一 7 || x—x; ||) ,7 之 0, 在 构建 SVM 回归 模 
型 的 过 程 中 ,C、y 和 e 这 三 个 参数 需 自主 决定 ,C 是 惩罚 常数 ,y 为 高 斯 核 函 数 的 参数 ,e 
为 不 敏感 区 域 的 宽度 ,模型 参数 选取 使 用 交叉 验证 方法 ,利用 Libsvm 库 文件 实现 参数 的 
选取 。 当 选取 合适 的 C.y 和 e 三 个 参数 后 ,对 SVM 模型 进行 训练 样本 训练 和 预测 ,按理 
论 给 出 表 7-2。 





表 7-2 建立 SVM 成 矿 预测 模型 阶段 
































标 号 实际 值 SVM 预测 值 标 号 实际 值 SVM 预测 值 
1 x, V, 6 X Ys 
2 x; A 7 X; y; 
3 X, Y; $ X; Y 
4 Ñ vA 9 X X; 
5 X A 10 Xo Yx 
XiYi(i=1,2,3,4,5,6,7,8,9,10) 分 别 是 训练 样本 的 实际 值 ( 标 准 值 ) 和 待 测 


样本 的 SVM 预测 值 (经 过 分 类 器 输出 的 值 )。Xi,Y; 均 是 Zn 元 素 的 含量 ,只 不 过 前 
者 是 标准 值 , 后 者 是 待 测 样本 的 SVM 预测 值 ,此 处 用 了 10 个 样本 ,本 表 一 来 是 可 以 
看 出 分 类 器 的 预测 效果 ,二 来 是 可 以 通过 预测 值 判断 该 样本 是 属于 有 矿 的 一 类 还 是 
无 矿 的 一 类 。 

由 于 SVM 的 源 代码 过 于 庞大 , 受 篇 幅 限制 在 此 不 具体 列举 ,读者 可 登录 http: // 


www. csie, ntu. edu. tw/~cjlin/libsvm/ 自行 下 载 。 


7.4 支持 向 量 机 的 特点 及 应 用 
7.4.1 支持 向 量 机 的 特点 


SVM 有 以 下 主要 优点 : 

(1) 非 线性 映射 是 SVM 方法 的 理论 基础 ,SVM 利用 内 积 核 函 数 代替 向 高 维 空间 的 
非 线性 映射 。 

(2) 对 特征 空间 划分 的 最 优 超 平面 是 SVM 的 目标 ,最 大 化 分 类 边际 的 思想 是 SVM 
方法 的 核心 。 

(3) 支持 向 量 是 SVM 的 训练 结果 ,在 SVM 分 类 决策 中 起 决定 作用 的 是 支持 向 量 。 

(4) SVM 是 一 种 有 坚实 理论 基础 的 .新 颖 的 小 样本 学 习 方法 。 它 基本 上 不 涉及 概率 
测度 及 大 数 定律 等 ,因此 不 同 于 现 有 的 统计 方法 。 从 本 质 上 看 , 它 避 开 了 从 归纳 到 演绎 的 
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支持 向 量 机 


传统 过 程 ,实现 了 高 效 的 从 训练 样本 到 预报 样本 的 “ 转 导 推 理 ”, 大 大 简化 了 通常 的 分 类 和 
回归 等 问题 。 

(5) SVM 的 最 终 决策 函数 只 由 少数 的 支持 向 量 确定 ,计算 的 复杂 性 取决 于 支持 向 量 
的 数目 ,而 不 是 样本 空间 的 维 数 , 这 在 某 种 意义 上 避免 了 “ 维 数 灾难 ”。 

(6) 少数 支持 向 量 决定 了 最 终结 果 , 这 不 但 可 以 帮助 我 们 抓 住 关键 样本 “剔除 ?大 量 
元 余 样 本 ,而 且 注定 了 该 方法 不 但 算法 简单 ,而 且 具 有 较 好 的 “和 鲁 棒 ” 性 。 这 种 “ 鲁 棒 ” 性 主 
要 体现 在 : 

。 增 、 删 非 支持 向 量 样本 对 模型 没有 影响 ; 

。 支持 向 量 样 本 集 具有 一 定 的 鲁 棒 性 ; 

。 有 些 成 功 的 应 用 中 ,SVM 方法 对 核 的 选取 不 敏感 。 

两 个 不 足 是 ， 

(1) SVM 算法 对 大 规模 训练 样本 难以 实施 。 

由 于 SVM 是 借助 二 次 规划 来 求解 支持 向 量 的 ,而 求解 二 次 规划 将 涉及 m 阶 矩 阵 的 
计算 Gm 为 样本 的 个 数 ) 4 m 数目 很 大 时 ,该 矩阵 的 存储 和 计算 将 耗费 大 量 的 机 器 内 存 
和 运算 时 间 。 针 对 以 上 问题 的 主要 改进 有 J. Platt 的 SMO R,T. Joachims 的 SVM, 
C. J. C. Burges 等 的 PCGC , 张 学 工 的 CSVM 以 及 O. L. Mangasarian 等 的 SOR 算法 。 

(2) 用 SVM 解决 多 分 类 问题 存在 困难 。 

经 典 的 支持 向 量 机 算法 只 给 出 了 二 类 分 类 的 算法 ,而 在 数据 挖掘 的 实际 应 用 中 ,一般 
要 解决 多 类 的 分 类 问题 。 可 以 通过 多 个 二 类 支持 向 量 机 的 组 合 来 解决 。 主 要 有 一 对 多 组 
合 模式 .一 对 一 组 合 模式 和 SVM 决策 树 ;再 就 是 通过 构造 多 个 分 类 器 的 组 合 来 解决 。 主 
要 原理 是 克服 SVM 固有 的 缺点 ,结合 其 他 算法 的 优势 ,解决 多 类 问题 的 分 类 精度 ,如 与 
粗 集 理论 结合 ,形成 一 种 优势 互补 的 多 类 问题 的 组 合 分 类 器 。 


7.4.2 支持 向 量 机 的 应 用 


SVM 方法 在 理论 上 具有 突出 的 优势 ,贝尔 实验 室 率先 对 美国 邮政 手写 数字 库 识别 研 
究 方面 应 用 了 SVM 方法 ,取得 了 较 大 的 成 功 。 在 随后 的 近 几 年 内 ,有 关 SVM 的 应 用 研 
究 得 到 了 很 多 领域 的 学 者 的 重视 ,在 人 脸 检测 、 验 证 和 识别 .说 话 人 /语音 识别 ,文字 /手写 
体 识别 .图 像 处 理 及 其 他 应 用 研究 等 方面 取得 了 大 量 的 研究 成 果 , 从 最 初 的 简单 模式 输入 
的 直接 SVM 方法 研究 ,进入 多 种 方法 取长补短 的 联合 应 用 研究 ,对 SVM 方法 也 有 了 很 
多 改进 。 


1. 车 辆 行人 检测 


由 于 人 体 是 一 个 非 刚 性 的 目标 ,并 在 尺寸 .形状 、 颜 色 和 纹理 机 构 上 有 一 定 程度 的 可 
变性 。 行 人 检测 主要 是 基于 小 波 模板 概念 ,按照 图 像 中 小 波 相关 系数 子 集 定义 目标 形状 
的 小 波 模板 。 系 统 首先 对 图 像 中 每 个 特定 大 小 的 窗口 以 及 该 窗口 进行 一 定 范围 的 比例 缩 
放 得 到 的 窗口 进行 Harr 小 波 变 换 , 然 后 利用 支持 向 量 机 检测 变换 的 结果 是 否 可 以 与 小 
波 模板 匹配 ,如 果 匹 配 成 功 则 认为 检测 到 一 个 行人 。 
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《数据 挖掘 算法 原理 与 实现 CUSI = 





2. 图 像 中 的 文本 定位 


将 支持 向 量 机 (SVMD) 用 于 分 析 图 像 中 文本 的 纹理 特性 。 不 需要 专门 提取 纹理 特征 ， 
而 是 直接 将 像素 的 灰 度 值 作为 支持 向 量 机 的 输入 ,经 支持 向 量 机 处 理 后 输出 分 类 结果 ( 即 
文本 或 非 文本 ) ;然后 再 通过 消除 噪声 和 合并 文字 区 域 就 可 得 到 定位 结果 。 支 持 向 量 机 对 
于 文本 定位 有 很 好 的 鲁 棒 性 ,并 且 可 在 有 限 的 样本 中 进行 训练 。 








3. P2P 流量 识别 


P2P 流量 识别 问题 本 质 上 就 是 一 个 分 类 问题 ,将 未 知 流量 粗 分 为 PPZP 和 non-P2P 应 
用 ,属于 二 值 分 类 ,将 未 知 流量 细 分 为 各 个 具体 P2P 应 用 ,属于 多 值 分 类 。 因 此 支持 向 量 
机 被 自然 地 应 用 到 P2P 流量 分 类 问题 。 





7.5 小 结 


本 章 介绍 了 在 统计 学 习 理 论 基础 之 上 发 展 起 来 的 SVM 算法 。 重 点 剖析 了 SVM 原 
理 ,包括 支持 向 量 机 核心 理论 ,最 大 间隔 分 类 超 平面 ,支持 向 量 机 、 核 函数 分 类 。 然 后 举 出 
一 个 将 支持 向 量 机 用 到 成 矿 的 定性 预测 中 的 实例 ,并 分 析 了 一 个 具体 的 SVM 源 程序 ,最 
后 介绍 了 支持 向 量 机 算法 的 特点 以 及 应 用 。 


. 简 述 一 致 性 的 定义 。 

. 简 述 最 大 间隔 分 类 超 平面 的 定义 。 

. 支持 向 量 机 的 关键 技术 是 什么 ? 

. 支持 向 量 机 的 优 缺 点 是 什么 ? 

. 支持 向 量 机 的 基本 思想 是 什么 ? 请 举例 说 明 支 持 向 量 机 的 应 用 。 


n = Q rt — 
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第 8 章 K-means 聚 类 算法 
8.1 简介 


K-means 聚 类 算法 由 J. B. MacQueen 在 1967 年 提出 是 最 为 经 典 的 也 是 使 用 最 为 广 
泛 的 一 种 基于 划分 的 聚 类 算法 , 它 属于 基于 距离 的 聚 类 算法 。 所 谓 基 于 距离 的 聚 类 算法 
是 指 采 用 距离 作为 相似 性 量度 的 评价 指标 ,也 就 是 说 , 当 两 个 对 象 离 得 近 时 ,两 者 之 间 的 
距离 比较 小 ,那么 它们 之 间 的 相似 性 就 比较 大 。 这 类 算法 通常 是 由 距离 比较 相近 的 对 象 
组 成 马 , 把 得 到 的 紧凑 而 且 独 立 的 簇 作为 最 终 目标 ,因此 将 这 类 算法 称 为 基于 距离 的 聚 类 
算法 。K-means 聚 类 算法 就 是 其 中 比较 经 典 的 一 种 算法 。K-means 聚 类 是 数据 挖掘 的 
重要 分 支 ,同时 也 是 实际 应 用 中 最 常用 的 聚 类 算法 之 一 。 


8.2 K-means 聚 类 算法 原理 





K-means 聚 类 算法 的 最 终 目 标 就 是 根据 输入 参数 (这 里 的 KK 表示 需要 将 数据 对 象 
聚 成 几 簇 ) ,把 数据 对 象 分 成 K 个 秘 。 该 算法 的 基本 思想 是 : 首先 ,指定 需要 划分 的 艇 的 
+B K 值 ;然后 ,随机 地 选择 K 个 初始 数据 对 象 点 作为 初始 的 聚 类 中 心 ;再 次 ,计算 其 余 
的 各 个 数据 对 象 到 这 K 个 初始 聚 类 中 心 的 距离 (这 里 一 般 采 用 距离 作为 相似 性 度量 ) ,把 
数据 对 象 划 归 到 距离 它 最 近 的 那个 中 心 所 处 的 簇 类 中 ;最 后 ,调整 新 类 并 且 重 新 计算 出 新 
类 的 中 心 , 如 果 两 次 计算 出 来 的 聚 类 中 心 未 曾 发 生 任何 变化 ,就 可 以 说 明 数据 对 象 的 调整 
已 经 结束 ,也 就 是 说 聚 类 采用 的 准则 函数 (这 里 采用 的 是 误差 平方 和 的 准则 函数 ) 是 收敛 
的 ,表示 算法 结束 。 

K-means 聚 类 算法 属于 一 种 动态 聚 类 算法 ,也 称 为 逐步 聚 类 法 ,该 算法 的 一 个 比较 
显著 的 特点 就 是 迭代 过 程 ,每 次 都 要 考察 对 每 个 样本 数据 的 分 类 正确 与 否 ,如 果 不 正确 ， 
就 要 进行 调整 。 当 调整 完全 部 的 数据 对 象 之 后 ,再 来 修改 中 心 , 最 后 进入 下 一 次 迭代 的 过 
程 中 。 若 在 一 个 迭代 中 ,所 有 的 数据 对 象 都 已 经 被 正确 地 分 类 ,那么 就 不 会 有 调整 , 聚 类 
中 心 也 不 会 改变 , 聚 类 准则 函数 也 表明 已 经 收敛 ,那么 该 算法 就 成 功 结束 。 

传统 的 K-means 算法 的 基本 工作 过 程 是 : 首先 随机 选择 K 个 数据 作为 初始 中 心 , 计 
算 各 个 数据 到 所 选 出 来 的 各 个 中 心 的 距离 ,将 数据 对 象 指派 到 最 近 的 簇 中 。 然 后 计算 每 
个 簇 的 均值 ,循环 往复 执行 ,直到 满足 聚 类 准则 函数 收敛 为 止 ,其 具体 的 工作 步骤 如 下 。 

输入 : 初始 数据 集 DATA 和 簇 的 数目 KK。 

输出 : K 个 簇 ,满足 平方 误差 准则 函数 收敛 。 

(1) 任意 选择 K 个 数据 对 象 作为 初始 聚 类 中 心 。 

(2) Repeat, 

(3) 根据 簇 中 对 象 的 平均 值 ,将 每 个 对 象 赋 给 最 类 似 的 簇 。 
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(4) 更 新 簇 的 平均 值 , 即 计算 每 个 对 象 簇 中 对 象 的 平均 值 。 
(5) 计算 聚 类 准则 函数 E. 

(6) Until 准则 函数 E 值 不 再 进行 变化 。 

K-means 算法 的 工作 流程 如 图 8-1 所 示 。 


输入 聚 类 的 个 数 K 和 数据 样本 








初始 化 K 个 聚 类 中 心 
T 
ji 
分 配 各 个 数据 对 象 到 距离 最 近 的 类 中 




















重新 计算 各 个 聚 类 的 中 心 (均值 ) 


否 


是 
输出 聚 类 结果 
图 8-1 K-means 算法 的 工作 流程 




















K-means 算法 的 工作 框架 如 下 : 
(1) 给 出 nn 个 数据 样本 , 令 1 二 1, 随 机 选择 开 个 初始 聚 类 中 心 Zi(T) ,j= 二 1,2,"…,K。 
(2) 求解 每 个 数据 样本 与 初始 聚 类 中 心 的 距离 D[xi,2;(1)],i=1,2,…,n;j 二 1， 
2,…, 民 ,车 满足 D[z,.Z, (D ]=min(D[z,.Z, (D J.i=1,2,--.nl ,那么 r Ew 
G) A [一 [十 1, 计 算 新 聚 类 中 心 Zi1(2) 一 LSP, =1,2,.,K 以 及 误差 平方 和 
一 1 


n 


£ $ 
准则 函数 J。 的 值 ; J].(2) = > >》 lP- 


j=1 k=l 


(4) 判断 ; 如 果 |J.(I 十 1) 一 J.( 了 |<&, 就 表示 算法 结束 ;反之 ,T= 二 I 十 1, 则 重新 返回 
第 (2) 步 执行 。 

从 该 算法 的 框架 能 够 得 出 : K-means 算法 的 特点 就 是 调整 一 个 数据 样本 后 修改 一 次 
聚 类 中 心 以 及 聚 类 准则 函数 J. 的 值 , 当 个 数据 样本 完全 被 调整 完 后 表示 一 次 迭代 完 
成 ,这 样 就 会 得 到 新 的 J. 和 聚 类 中 心 的 值 。 若 在 一 次 迭代 完成 之 后 ,J 的 值 没有 发 生变 
化 , 则 表明 该 算法 已 经 收敛 ,在 迭代 过 程 中 J. 值 逐 渐 缩 小 ,直到 达到 最 小 值 为 止 。 该 算法 
的 本 质 是 把 每 一 个 样本 点 划分 到 离 它 最 近 的 聚 类 中 心 所 在 的 类 。 

K-means 聚 类 算法 的 本 质 是 一 个 最 优化 求解 的 问题 ,目标 函数 虽然 有 很 多 局 部 最 / 
值 点 ,但 是 只 有 一 个 全 局 最 小 值 点 。 之 所 以 只 有 一 个 全 局 最 小 值 点 是 由 于 目标 函数 总 是 
按照 误差 平方 准则 函数 变 小 的 轨迹 来 进行 查找 的 。 

K-means 算法 对 聚 类 中 心 采 取 的 是 迭代 更 新 的 方法 ,根据 天 个 聚 类 中 心 ,将 周围 
的 点 划分 成 天 个 入 ;在 每 一 次 的 迁 代 中 将 重新 计算 的 每 个 得 的 质心 , 即 复 中 所 有 点 的 
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k-means 聚 类 算法 


均值 ,作为 下 一 次 迭代 的 参照 点 。 也 就 是 说 ,每 一 次 的 迭代 都 会 使 选取 的 参照 点 越 来 
越 接近 簇 的 几何 中 心 也 就 是 簇 心 ,所 以 如 果 目 标 函数 越 来 越 小 ,那么 聚 类 的 效果 也 会 


越 来 越 好 。 


8.3 K-means 聚 类 算法 实例 分 析 


【 例 8. 1】 利用 K-means 方 法 ,对 A~L 12 个 数据 分 成 两 类 。 初 始 的 随机 点 指定 为 
M1(20,60) ,M2(80,80)。 列 出 每 一 次 分 类 结果 及 每 一 类 中 的 平均 值 (中 心 点 ), 如 表 8-1 
























































所 示 。 
表 8-1 A~L 12 个 数据 

坐标 点 x Y 点 MI 点 M2 
A 2.273 68.367 20 60 80 80 
B 27.89 83. 127 
( 30.519 61.07 
D 62. 049 69.343 
E 29. 263 68.748 
F 62, 657 90.094 
G 75. 785 62.761 
H 24.344 43.816 
| 17. 667 86.765 
J 68.816 76.874 
K 69.076 57.829 
É 85.691 88.114 

1. 第 一 次 分 类 


1) 点 到 M1 的 距离 


在 单元 格 F2 中 输入 函数 “二 SQRT(SUMSQ((B2 一 D$2), (C2 一 E$2)))”, 计 算出 
点 A 到 点 M1 的 距离 后 ,将 F2 以 下 的 单元 格 下 拉 依 次 得 到 其 他 点 到 点 M1 的 距离 。 


2) 点 到 M2 的 距离 


在 单元 格 12 中 输入 函数 “= 二 SQRT(SUMSQ((B2 一 G$2), (C2 一 H$2)))”, 计 算出 
点 A 到 点 M2 的 距离 后 ,将 I2 以 下 的 单元 格 下 拉 依 次 得 到 其 他 点 到 点 M2 的 距离 。 
点 到 M1 的 距离 与 点 到 M2 的 距离 比较 并 排序 : 在 单元 格 J]2 中 输入 函数 “一 下 (F2> 一 


I2,"M2","M1")” 并 按 升 序 排列 ,如 表 8-2 所 示 。 
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表 8-2 第 一 次 分 类 排序 结果 









































坐标 点 x yv 点 到 M1 的 距离 点 到 M2 的 距离 | 归属 于 MI/M2 点 
A 2.273 68.367 24.435 839 03 66. 384 276 69 M1 
B 27. 89 83. 127 24. 435 839 03 52. 203 737 69 M1 
C 30.519 61.07 10.573 280 52 52. 978 432 04 M1 
E 29. 263 68. 748 12.740 905 5 51. 969 709 19 M1 
H 24. 344 43. 816 16.756 855 07 66. 384 276 69 M1 
f 17.667 86.765 26. 866 486 82 62. 699 028 01 M1 
D 62. 049 69. 343 43.074 470 98 20. 876 064 04 M2 
F 62. 657 90. 094 52. 204 104 1 20. 066 601 23 M2 
G 75.735 62.761 55. 803 345 29 17. 758 754 07 M2 
J 68. 816 76. 874 51. 650 108 73 11. 612 653 96 M2 

69. 076 57. 829 49. 123 996 35 24. 716 128 68 M2 
85. 691 88. 114 71. 454 212 45 9. 910 826 252 M2 




















第 一 次 分 类 结果 如 表 8-3 所 示 。 
表 8-3 第 一 次 分 类 结果 






































M1 类 M2 类 
A 2.273 | 68,367 D 62. 049 69.343 
B 27.89 83. 127 F 62. 657 90. 094 
C 30.519 | 61.07 G 75.735 62.761 
E 29.263 | 68.748 J 68.816 76.874 
H 24.344 | 43. 816 K 69.076 57. 829 
I 17.667 | 86.765 Ë 85.691 88.114 
M1 类 中 心 MV 8 | 21.99267 | 68.64883333 | M2 类 中 心 M2 点 | 70.67067 | 74.169 1667 





绘制 的 散 点 图 如 图 8-2 所 示 。 




















+ 4 系列 ! 























0 20 40 60 80 100 
图 8-2 第 一 次 分 类 结果 
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2. 第 二 次 分 类 


使 用 AVERAGE 函数 求 第 一 次 分 类 后 各 类 的 质心 Ml 和 M2 。 
依据 第 一 次 分 类 时 的 步骤 ,得 到 了 第 二 次 分 类 的 结果 ,如 表 8-4 和 表 8-5 所 示 。 


表 8-4 第 二 次 分 类 排序 结果 









































坐标 点 x Y 到 MY 点 的 距离 到 M2 点 的 距离 MI /M2 
A 2.273 68.367 19. 721 683 83 68. 643 327 7 M1 
B 27. 89 83. 127 15. 633 166 91 43. 708 448 2 M1 
C 30.519 61.07 11.407 759 09 42. 234 403 73 M1 
E 29. 263 68. 748 7. 271 006 326 41. 761 037 09 M1 
H 24. 344 43. 816 24. 943 901 03 55. 384 792 88 M1 
I 17. 667 86. 765 18. 625 440 57 54. 479 757 4 M1 
D 62. 049 69. 343 40. 062 344 48 9. 880 542 012 M2 
F 62. 657 90. 094 45. 972 633 71 17. 827 482 08 M2 
G 75.735 62. 761 54. 063 893 46 12. 481 737 9 M2 
J 68.816 76.874 47.540 274 02 3.279 619816 M2 
K 69.076 57.829 48.310 544 24 16. 417 799 12 M2 
L 85.691 88.114 66. 606 081 46 20. 495 575 06 M2 




















表 8-5 第 二 次 分 类 结果 



































M! 3 M2 类 

A 2.273 68.367 D 62.049 69.343 

B 27.89 83.127 F 62. 657 90. 094 

€ 30. 519 61.07 G 75.735 62. 761 

E 29. 263 68. 748 J 68. 816 76. 874 

H 24. 344 43. 816 K 69. 076 57. 829 

I 17. 667 86. 765 L 85.691 88.114 
绘制 散 点 如 图 8-3 所 示 。 
根据 以 上 分 析 过 程 ,可 以 明显 看 出 第 二 次 聚 类 结果 和 第 一 次 聚 类 结果 没有 发 生变 化 ， 











此 可 以 确定 聚 类 结束 。 

【 例 8.2】 设 有 数据 样本 集合 为 X= 二 (1,5.10,9,26,32,16,21,14}) ,将 X 聚 为 3 类 ， 
即 玉 王 3。 随 即 选择 前 三 个 数值 为 初始 的 聚 类 中 心 , 即 x1 二 1,zs 二 5,zs 二 10( 采 用 欧 氏 距 
离 进行 计算 ) 。 

第 一 次 迭代 : 按照 三 个 聚 类 中 心 将 样本 集合 分 为 三 个 簇 {1), {5),{10,9,26,32,16， 











163| 











[TI 二 























+ 4 系列 ] 




















图 8-3 第 二 次 分 类 结果 


21,14)。 对 于 产生 的 簇 分 别 计算 平均 值 ,得 到 平均 值 点 填 信 第 二 步 的 zx, ,x z | 栏 中 。 
第 二 次 迭代 : 通过 平均 值 调整 对 象 所 在 的 簇 ,重新 聚 类 。 即 将 所 有 点 按 距离 平均 值 
点 1,5,18.3 最 近 的 原则 重新 分 配 , 得 到 三 个 新 的 簇 {1), {5,10,9),{26,32,16,21,14}。 
填 人 第 二 步 的 Ci,Cz ,Cs 栏 中 。 重 新 计算 艇 平均 值 点 ,得 到 新 的 平均 值 点 为 1,8,21. 8。 
以 此 类 推 ,第 五 次 迭代 时 ,得 到 的 三 个 簇 与 第 四 次 迭代 的 结果 相同 ,而 且 准 则 函数 E 

















收敛 ,迭代 结束 ,结果 如 表 8-6 所 示 。 
表 8-6 K-means 聚 类 算法 

步骤 x x Z3 C C, G, E 
1 1 5 10 {1} {5} {10,9,26,32,16,21,14} 433.43 
2 1 5 18. 3 {1} {510,9} 126.32.16.21.14/ 230.8 
š 1 8 21.8 {1} {5,10,9,14} {26,32,16,21} 181.76 
4 £ 9.5 23.8 {1,5} | {10,9,14,16} {26,32,21} 101. 43 
5 3 12.3 26. 3 {1,5} | {10,9,14,16} {26,32,21} 101. 43 























8.4 K-means 聚 类 算法 源 程序 分 析 


#include< iostrear> 
#šinclude< fstrean> 
#include< anath> 
#include< cstdlib> 
#include< ctim 
using namespace std; 
/数据 对 象 ,size 为 维度 
Struct Vector 
{ 
doublex coords; // 所 有 维度 的 数值 
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int size; 
Vector(): coords(0), size(0)() 
Vector (int d) { create(d); } 
// 创 建 维度 为 d 的 数据 ,并 将 各 维度 初始 化 为 0 
Void create (int d) 
I 
size=d; 
coords= new double [size]; 
for (int i= 0; i< size; i++) 
coords[i]=0.0; 
) 
// 复 制 一 个 数据 
void copy(const Vectorg other) 
í 
if(size==0) 


Create (other.size)7 


for (int i=0; i< size; i++) 
Coords [i]= other.ooords [i]; 
} 
/将 另 一 个 数据 的 各 个 维度 加 在 自身 的 维度 上 
void add(const Vector& other) 
{ 
for(int i=0; i< size; i++) 
Coords [i ]+ = other.coords[i]; 
) 
// 释 放 数值 的 空间 
~ Vector () 
{ 
证 (coords) 
Gelete[] coords; 


size= 0; 


a 
// 聚 类 结构 
struct Cluster 


// 如 果 原 来 没有 数据 ,就 创建 


/中 心 /引力 数据 对 象 
// 该 聚 类 中 各 个 数据 的 索引 
/数据 的 数量 
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private: 
int nm; // 输 入 数据 的 数量 
int dimen; Šia J HE 38 
int clusterNny /数据 的 聚 类 数 
Vector * cbservaticns; // 所 有 数据 存放 在 这 个 数组 中 
Cluster * clusters; // 聚 类 数组 
int passNumy // 迁 代 的 次 数 
Public: 
// 初 始 化 参数 和 动态 分 配 内 存 
REans (int n, int d, int k, Vector * cb) 
: mm(n) 
, dinen(d) 
, ClusterNum(k) 


, Cbservations (cb) 
, Clusters (new Cluster[k]) 


for(int w= 0; x< clusterNn; x+ +) 
Clusters[x] .menber= new int [n]; 
} 
// 释 放 内 存 
~ FMeans() 
{ 
for(int k= 0; k< clusterNimy k++) 
Gelete [] clusters [k] .nenber; 
GElete [] clusters; 


void initClusters() 
Ií 
/由 于 初始 数据 中 心 是 任意 的 
// 所 以 直接 把 前 个 数据 作为 Nnclusters 个 聚 类 的 数据 中 心 
for (int i= 0; i< clusterNomy i++) 
{ 


clusters[i] meniber[O]= i; // 记 录 这 个 数据 的 索引 到 第 i 个 聚 类 中 
clusters[i] .center.orpy (cheervations[i]); // 把 这 个 数据 作为 数据 中 心 
) 
) 
void run() 
{ 
bool convergedF false; /是否 收敛 
passNm= 0; 
while(!oorverged && PassNume 999) // 如 果 没 有 收敛 ,就 再 次 迭代 


/正常 情况 下 总 是 会 收敛,passNm 999 是 以 防 万 一 
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{ 


distribute(); IA Bra RR rh ly Bz h RK 
Omverged recaloulateCenters () ; 
// 计 算 新 的 聚 类 中 心 ,如 果 计 算 结 果 和 上 次 相同 ,就 认为 已 经 收敛 
pasint + ; 
} 
} 
void distribute () 


{ 
// 将 上 次 记录 的 该 聚 类 中 的 数据 数量 清 零 ,重新 开始 分 配 数据 
for(int k= 0; k< clusterNm; kr +) 
getCluster (k) menberNus= 0; 
// 找 出 每 个 数据 最 近 的 聚 类 数据 中 心 ,并 将 该 数据 分 配 到 该 聚 类 
for (int i= 0; i< nm i++) 
{ 
Clusterg cluster= getCluster (closestCluster (i)); 


// 找 出 最 接近 的 其 中 心 的 聚 类 
int memID= cluster.menberNuny 
/herberNm 是 当前 记录 的 数据 数量 ,也 是 新 加 入 的 数据 在 nenber 数 组 中 的 位 置 
cluster.nenber[memID]= i; /将 数据 索引 加 入 menber 数 组 
cluster.mnenberNumr + ; // 聚 类 中 的 数据 数量 加 1 
} 
} 
int closestCluster (int id) 
{ 
int clusterID= 0; // 暂 时 假定 索引 为 这 的 数据 最 接近 第 一 个 聚 类 


dable minDist= eucNom(id, 0); 
// 计 算 到 第 一 个 聚 类 中 心 的 误差 本 程序 中 用 距离 的 平方 和 作为 误差 ) 
// 计 算 其 他 聚 类 中 心 到 数据 的 误差 , 找 出 其 中 最 小 的 一 个 
for (int k= 1; k< clusterNmy k++) 
{ 
dable d= eucNom(id, k); 


if (d< minDist) // 如 果 小 于 前 最 小 值 ,就 将 改 值 作为 当前 最 
小 值 
{ 
minDist=d; 
clusterID= k; 


/索引 为 这 的 数据 到 第 k 个 聚 类 中 心 的 误差 ERPI) 
dable eucNom(int id, int k) 
{ 
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Vectorg cbserv= dbservations[id]; 

Vectorg center= clusters[k] .canter; 

dable snOfSquare= 0; 

// 将 每 个 维度 的 差 的 平方 相 加 ,得 到 距离 的 平方 

for(int d= 0; d< dimen; d++) 

{ 
daile dist= cbserv.coords[d]— osnter.coords[d]; /在 一 个 维度 上 中 心 到 数据 的 距离 
sOfsqaret = dist * dist; 


retum sunDfScuare; 
) 
// 重 新 计算 聚 类 中 心 
bool recalculateCenters () 
í 

bool converged= true; 





for (int k= 0; k< clusterNm; kr +) 
{ 
Clusterg cluster= getCluster (k) ; 
Vector average (dimen) ; // 初 始 的 数据 平均 值 
/统计 这 个 聚 类 中 数据 的 总 和 (因为 在 构造 函数 中 会 将 各 维 数值 清 零 ,所 以 可 以 直接 加 ) 
for (int m= 0; mw cluster .menberNum mt + ) 
average.add (cbeervations[cluster.menber[m]]) ; 
/计算 各 个 维度 的 评价 值 
for(int d= 0; d< dimen; dr + ) 
{ 
average.coords[d] /=cluster.manberNmy 
if(average.coords[d] != cluster.oenter.coords[d]) 


// 如 果 和 原来 的 聚 类 中 心 不 同 
/表示 没有 收敛 

{ 

Oonverged= false; 

Cluster.center.coords[d]= average.coords [d]; 
/用 这 次 的 平均 值 作 为 新 的 聚 类 中 心 


} 

retum oonverged; 
} 
/获得 第 dR 
Clusters getcluster(int id) 
t 

retum clusters[id]; 





— 58 














zs = K-means RXR 


F 
/打印 一 个 数据 
void printVector (ostresms output, const Vector& v) 
{ 
for(int i=0; i<v.size; i++) 
{ 
if(i !=0) 
cutput< < ","; 
output< < v.coords [i]; 
) 
} 
void partitioncbservations (istreamg input) 
í 
// 从 irput 输 入 中 获取 数据 
int n, dinen, k; 
/文本 文件 中 头 三 个 数据 分 别 是 数据 数量 外、 数据 维度 (inen) 128 2 9 1t (9 
irgput> > n> > dimen> > k; 
// 创 建 存储 数据 的 数值 
Vector* cbs=new Vector[n]; 
/将 数据 读 人 数组 
for(int i=0; i<n; i++) 
{ 
de[i] .create (dimen); // 创 建 数据 
// 依 次 读 入 各 个 维度 的 数值 
for(int d= 0; d< dimen; dr + ) 
{ 
input > cbs [i] .ooords [d]; 
) 
) 
/建立 Reans 算 法 类 实例 
Keans kmeans (n, dimen, k, œs); 
kmeans.initclusters (); // 初 始 化 
kueans.run(); /执行 算法 


// 输 出 聚 类 数据 ,如 果 和 希望 输出 到 文件 中 
// 将 后 面 的 catpt 的 定义 改 为 下 面 的 形式 即 可 
//ofstream output ("result.txt"); 
ostreams cutrut= cout; 
for (int c= 0; c<k; c+) 
{ 
Clusterg cluster= kmeans.getC1uster (c); 


output<<"--- 第 "<< crD<<" 中 聚 类 ----\n // 显 示 第 c 个 聚 类 
output<<" 际 类 中 心 :"; 
PrintVector (output, cluster.center); 
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for(int m= 0; m cluster.menberNm; mr +) 
{ 
int ic cluster.menber[m]; 
printVector (output, cbs[id]) ; 
output< < "Nn"; 
} 
utput< < endl; 


Gelete[] ds; 
} 
int main() 
{ 
omst char * fileName= "cbeervations.txt"; 
ifstream abIm (fileNeme); 
if(cbIn.is cpen()) 
PartiticnCbservations (dbIn); 
else 
cout<< "open <<fileName<<" is fail!" < endl; 


retum 0; 






结果 分 析 : 运行 结果 如 图 8-4 所 示 。 共 有 9 个 数据 ,数据 的 维度 是 3.9 个 数据 分 别 为 
(2. 1.3 0 10.0) (4.0 5.2, 10 5. Ll 502.3)7 (165712 6 10 8; 015 110.5; 
1100) E 9 5 3,98, (5.4 168: 7yy C 11.0 A 1,—0.9yy(0.5,0.30.2y. EB 
标 为 输出 4 个 聚 类 ,满足 平 准则 函数 收敛。 首先 程序 任意 选择 4 个 数据 对 象 作为 
初始 聚 类 中 心 ,计算 每 个 剩余 对 象 到 4 个 初始 聚 类 中 心 点 的 距离 ,将 剩余 对 象 归 类 给 离 它 
最 近 的 中 心 点 所 表示 的 簇 ,得 到 中 心 点 的 分 布 情况 。 然 后 程序 更 新 簇 的 平均 值 , 即 计算 每 
个 对 象 簇 中 对 象 的 平均 值 ,得 到 新 的 聚 类 中 心 ,同时 计算 误差 平方 和 准则 函数 的 值 ,判断 
是 否 收敛 ,再 将 数据 对 象 指派 到 最 近 的 簇 中 ,如 此 反复 迭代 ,最 终 准 则 函数 值 不 再 变化 ,得 
到 4 个 聚 类 如 下 ， 

















于 “DAprogram Files\Microsoft Visual Studio\MyProjects\8_4 Kmeans\Debug\8_4 Kmeansexe” k S | 











图 8-4 程序 输出 的 结果 
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第 一 个 聚 类 。 

聚 类 中 心 为 (3.75,2.3,9.35) ,划分 到 聚 类 中 的 数据 为 (2. 1,3,10) ,(5.4,1.6,8.7)。 

第 二 个 聚 类 。 

聚 类 中 心 为 (4. 1,5. 25, 一 5.4) ,划分 到 聚 类 中 的 数据 为 (4,5.2, 一 1),(4.2,5.3, 一 9.8)。 

第 三 个 聚 类 。 

聚 类 中 心 为 (1.533 33 ,一 0.1,0.6) ,划分 到 聚 类 中 的 数据 为 (5.1,1.5,2.3),( 一 1， 
=9.1,—=0.9,00;5,0.3,0.4y. 

第 四 个 聚 类 。 

聚 类 中 心 为 (11.3,11.75,10.9), 划 分 到 聚 类 中 的 数据 为 (10.5,12.6,10.8),(12. 1, 
10.9,11), 


8.5 K-means 聚 类 算法 的 特点 及 应 用 
8.5.1 K-means 聚 类 算法 的 特点 


1. 优点 


(1) K-means 聚 类 算法 是 解决 聚 类 问题 的 一 种 经 典 算法 ,算法 简单 .快速 。 

(2) 对 处 理 大 数据 集 , 该 算法 是 相对 可 伸缩 的 和 高 效率 的 ,因为 它 的 复杂 度 大 约 是 
OK) ,其 中 是 所 有 对 象 的 数目 ;K 是 能 的 数目 ;z 是 迭代 的 次 数 ,通常 K 二 <n。 这 个 
算法 经 常 以 局 部 最 优 结束 。 

(3) 算法 尝试 找 出 使 平方 误差 函数 值 最 小 的 K 个 划分 。 当 簇 是 密集 的 ,球状 或 团 状 
的 ,而 簇 与 簇 之 间 的 区 别 明显 时 , 它 的 聚 类 效果 较 好 。 


2. 缺点 


(1) K-means 聚 类 算法 只 有 在 艇 的 平均 值 被 定义 的 情况 下 才能 使 用 ,不 适用 于 某 些 
应 用 ,如 涉及 有 分 类 属性 的 数据 不 适用 。 

(2) 要 求 用 户 必须 事先 给 出 要 生成 的 簇 的 数目 天 。 

(3) 对 初 值 敏 感 ,对 于 不 同 的 初始 值 , 可 能 会 导致 不 同 的 聚 类 结果 。 

(4) 不 适合 于 发 现 非 凸 面 形 状 的 簇 , 或 者 大 小 差别 很 大 的 簇 。 

(5) 对 于 “噪声 ”和 孤立 点 数据 敏感 ,少量 的 该 类 数据 能 够 对 平均 值 产生 极 大 的 影响 。 





8.5.2 K-means 聚 类 算法 的 应 用 


1. K-means 算法 在 散 货 船代 货运 系统 中 的 应 用 


在 散 货船 代 货 运 系统 使 用 的 过 程 中 ,动态 业务 数据 的 处 理 及 实时 分 析 有 助 于 决策 者 
制订 有 效 的 策略 。 航 线 是 船代 公司 考虑 成 本 时 着 重 考虑 的 因素 ,航线 的 繁忙 程度 对 船代 
公司 的 资源 分 配 和 经 营 策略 的 制订 十 分 重要 。 开 -means 算法 简单 ,快速 而 且 能 有 效 地 处 
理 大 型 数据 库 , 是 数据 挖掘 中 解决 聚 类 问题 的 一 种 经 典 算法 ,在 实际 应 用 中 ,将 其 用 于 散 
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货船 代 货运 方面 的 航线 繁忙 度 的 分 析 ,能 够 得 出 较 好 的 航线 繁忙 度 的 分 析 结 果 。 
2. K-Means 算法 在 客户 细 分 中 的 应 用 


传统 意义 上 ,客户 细 分 往往 根据 客户 的 一 维 属性 来 进行 ,如 金融 行业 根据 客户 资产 多 
少 ,可 以 将 客户 分 为 高 .中 、 低 端 客户 ,该 细 分 方法 最 大 的 优点 是 简单 ,在 实践 中 简便 易 行 。 
但 是 , 随 着 技术 的 进步 与 客户 需求 的 日 趋 多 样 化 ,以 及 企业 产品 的 不 断 创 新 ,传统 的 客户 
细 分 方法 显现 出 了 明显 的 缺点 ,即使 同 是 高 端 客户 ,客户 对 同一 产品 或 服务 的 需求 也 存在 
着 明显 差别 ,客户 对 产品 或 服务 的 要 求 日 趋 理 性 和 严格 。 需 要 一 种 新 的 细 分 方法 。 
K-Means 算法 是 实践 中 最 为 常用 的 数据 挖掘 算法 之 一 ,在 处 理 大 数据 量 方面 有 绝对 优 
势 ,而 且 可 以 取得 较 好 的 效果 。 


8.6 小 结 


本 章 详 细 地 介绍 了 K-means 算法 的 基本 概念 .基本 原理 ,并 用 实例 进行 了 说 明 ,同时 
还 分 析 了 K-means 算法 的 一 个 具体 源 程序 ,并 介绍 了 该 算法 的 特点 和 存在 的 缺陷 ,最 后 
介绍 了 K-means 算法 的 应 用 ,从 中 可 以 看 出 K-means 算法 的 应 用 非常 广泛 。 


思考 题 


1. 简 述 K-means 算法 的 工作 流程 。 

2. K-means 聚 类 算法 的 优 缺 点 是 什么 ? 

3. 分 别 取 二 2 和 3, 利用 K-means 聚 类 算法 对 以 下 的 点 聚 类 : (2,1),(1,2)， 
(2,2),(3,2),(2,3),(3,3),(2,4),(3,5),(4,4),(5,3) ,并 讨论 天 值 以 及 初始 聚 类 中 心 
对 聚 类 结果 的 影响 。 
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第 9 章 天- 中 心 点 聚 类 算法 


9.1 简介 


第 8 章 提 到 K-means 算法 对 于 离 群 点 是 敏感 的 ,因为 一 个 具有 很 大 的 极端 值 的 对 象 
可 能 显著 地 扭曲 数据 的 分 布 。 平 方 误差 函数 的 使 用 更 是 严重 恶化 了 这 一 影响 。 为 了 降低 
这 种 敏感 性 ,可 以 不 采用 簇 中 对 象 的 均值 作为 参照 点 ,而 是 在 每 个 簇 中 选 出 一 个 实际 的 对 
象 来 代表 该 秘 。 其 余 的 每 个 对 象 聚 类 到 与 其 最 相似 的 代表 性 对 象 所 在 的 徐 中 。 这 样 , 划 
分 方法 仍然 基于 最 小 化 所 有 对 象 与 其 对 应 的 参照 点 之 间 的 相 异 度 之 和 的 原则 来 执行 。 通 
常 ,该 算法 重复 迭代 ,直到 每 个 代表 对 象 都 成 为 它 的 簇 的 实际 中 心 点 ,或 最 靠 中 心 的 对 象 。 
这 种 算法 称 为 K- 中 心 点 聚 类 算法 。 

对 于 天- 中 心 点 聚 类 ,首先 随意 选择 初始 代表 对 象 (或 种 子 )。 只 要 能 够 提高 聚 类 质 
量 , 迭 代 过 程 就 继续 用 非 代表 对 象 替换 代表 对 象 。 聚 类 结果 的 质量 用 代价 函数 来 评估 ,该 
函数 量度 对 象 与 其 篮 的 代表 对 象 之 间 的 平均 相 异 度 。 


9.2 天 -中 心 点 聚 类 算法 原理 


K- 中 心 点 聚 类 算法 的 基本 思想 为 : 选用 簇 中 位 置 最 中 心 的 对 象 ,试图 对 个 对 象 给 
出 & 个 划分 ,代表 对 象 也 被 称 为 是 中 心 点 ,其 他 对 象 则 被 称 为 非 代表 对 象 。 最 初 随机 选择 
上 个 对 象 作为 中 心 点 ,该 算法 反复 地 用 非 代表 对 象 来 代替 代表 对 象 ,试图 找 出 更 好 的 中 心 
点 ,以 改进 聚 类 的 质量 ;在 每 次 迭代 中 ,所 有 可 能 的 对 象 对 被 分 析 , 每 个 对 中 的 一 个 对 象 是 
中 心 点 ,而 另 一 个 是 非 代 表 对 象 。 每 当 重 新 分 配 发 生 时 ,平方 误差 所 产生 的 差别 对 代价 函 
数 有 影响 。 因 此 ,如 果 一 个 当前 的 中 心 点 对 象 被 非 中 心 点 对 象 所 代替 ,代价 函数 将 计算 平 
方 误差 值 所 产生 的 差别 。 蔡 换 的 总 代价 是 所 有 非 中 心 点 对 象 所 产生 的 代价 之 和 。 如 果 总 
代价 是 负 的 ,那么 实际 的 平方 误差 将 会 减 小 ,代表 对 象 0; 可 以 被 非 代 表 对 象 0; 替代 。 如 
果 总 代价 是 正 的 , 则 当前 的 中 心 点 O; 被 认为 是 可 接受 的 ,在 本 次 迭代 中 没有 变化 。 

在 开 中 心 点 聚 类 算法 中 需要 计算 所 有 非 选中 对 象 与 选中 对 象 之 间 的 相 异 度 作为 分 
组 的 依据 。 针 对 不 同 的 数据 类 型 有 不 同 的 相 异 度 或 距离 函数 。 因 此 相 异 度 或 距离 函数 的 
选择 依据 数据 对 象 的 数据 类 型 。 一 般 情况 下 ,数据 对 象 为 数值 型 ,选用 曼哈顿 距离 : 

d(i.j) |#a za | ł | zz | 十 多 + | zs Zl (9-1) 

此 处 : i= (zaza t za Ñ = (zaza Tn) EA n 维 的 数据 对 象 。 具 体 应 
用 中 应 根据 不 同 的 数据 类 型 选用 不 同 的 距离 函数 。 

为 了 判定 一 个 非 代表 对 象 O, 是否 是 当前 一 个 代表 对 象 0; 的 好 的 替代 ,对 于 每 一 个 
非 中 心 点 对 象 0 ,有 以 下 四 种 情况 需要 考虑 ， 

第 一 种 情况 : 假设 O, 被 0; 代替 作为 新 的 中 心 点 ,Oi 当前 隶属 于 中 心 点 对 象 Oi。 如 
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果 O; 离 某 个 中 心 点 On 最 近 ,i 关 m, 那么 O; 被 重新 分 配给 Ons 替换 代价 为 Ci = 
d(j.m)—d(J.i). 

第 二 种 情况 : 假设 O; 被 O, 代替 作为 新 的 中 心 点 ,O; 当前 隶属 于 中 心 点 对 象 0;。 如 
RO 离 这 个 新 的 中 心 点 O; 最 近 , 那 么 O; 被 分 配给 0; ,替换 代价 为 Ci = d (j,h) 一 
d(j,i)。 

第 三 种 情况 : 假设 0; # O, 代替 作为 新 的 中 心 点 ,但 是 0; 当前 隶属 于 另 一 个 中 心 点 
ROn mAi WR O 依然 离 On 最 近 , 那 么 对 象 的 隶属 不 发 生变 化 ,替换 代价 为 
Ca =0。 

第 四 种 情况 : 假设 O, # O, 代替 作为 新 的 中 心 点 ,但 是 O, 当前 隶属 于 另 一 个 中 心 点 
HZ O, ,mm 天 ;如果 O; 离 这 个 新 的 中 心 点 0; 最 近 , 那 么 O, 被 重新 分 配给 O, ,替换 代价 
Ca =d(j,.h)—d(j.m), 

天- 中 心 点 聚 类 算法 描述 ; 

输入 : 簇 的 数目 & 和 包含 个 对 象 的 数据 库 。 

输出 :& 个 簇 ,使 得 所 有 对 象 与 其 最 近 中 心 点 的 相 异 度 总 和 最 小 。 

(1) 任意 选择 上 个 对 象 作为 初始 的 簇 中 心 点 。 

(2) Repeat 。 

(3) 指派 每 个 剩余 对 象 给 离 它 最 近 的 中 心 点 所 表示 的 能 。 

(4) Repeat, 

(5) 选择 一 个 未 被 选择 的 中 心 点 O;。 

(6) Repeat, 

(7) 选择 一 个 未 被 选择 过 的 非 中 心 点 对 象 Di 。 

(8) 计算 用 O, RE O 的 总 代价 并 记录 在 S 中 。 

(9) Until 所 有 非 中 心 点 都 被 选择 过 。 

(10) Until 所 有 的 中 心 点 都 被 选择 过 。 

aD 开 在 S 中 的 所 有 非 中 心 点 代替 所 有 中 心 点 后 的 计算 出 总 代价 有 小 于 0 的 存在 ， 
then 找 出 S 中 的 用 非 中心 点 替代 中 心 点 后 代价 最 小 的 一 个 ,并 用 该 非 中 心 点 替代 对 应 的 
中 心 点 ,形成 一 个 新 的 人 个 中 心 点 的 集合 。 

(12) Until 没有 再 发 生 簇 的 重新 分 配 , 即 所 有 的 S 都 大 于 0。 


9.3 天- 中 心 点 聚 类 算法 实例 分 析 


【 例 9.1】 假如 空间 中 的 5 个 点 {A,B,C,D,E), 各 点 之 间 的 距离 关系 如 表 9-1 所 
示 , 根 据 所 给 的 数据 对 其 运行 K- 中 心 点 算法 实现 聚 类 划分 ( 设 K=2)。 


表 9-1 样本 点 间距 离 




















样本 点 A B C D E 样本 点 4 B c D | E 
A 0 1 2 2 D 2 4 i 

B 1 0 2 4 3 E 3 3 5 3 | 0 
C 2 2 0 1 5 
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算法 执行 步骤 如 下 : 

第 一 步 ,建立 阶段 。 设 从 5 个 对 象 中 随机 抽取 的 2 个 中 心 点 为 {(A,B),( 点 C 到 点 A 
与 点 B 的 距离 相同 , 均 为 2, 故 随机 将 其 划 入 A 中 , 同 理 ,将 点 巨 划 入 B 中 ) 则 样本 被 划分 
为 {A,C,D} 和 {B,E}。 

第 二 步 ,交换 阶段 。 假 定 中 心 点 A.B 分 别 被 非 中 心 点 {C,D,E) 替 换 ,根据 KK- 中心 
点 算法 需要 计算 下 列 代价 TCac ,TCap ,TCag ,TCac ,TCap ,TCae 。 其 中 TC 表示 中 心 点 
A 被 非 中 心 点 C 代替 后 的 总 代价 。 下 面 以 TCac 为 例 说 明 计算 过 程 。 

当 A 被 C 替换 以 后 ,看 各 对 象 的 变化 情况 。 

(1) A: A 不 再 是 一 个 中 心 点 ,C 称 为 新 的 中 心 点 ,因为 A 离 B 比 A 离 C 近 ,A 被 分 
配 到 B 中 心 点 代表 的 簇 ,属于 上 述 4 种 情况 的 (1)。Cmc = 二 d (A,B) 一 d (A,A)=1 一 0 
=1, 

(2) B: B 2231, J FEK 4 种 情况 的 (3) 。Caac 王 0。 

(3) C: C 原先 属于 A PORIE, 4 A 被 C 替换 以 后 ,C 是 新 中 心 点 ,属于 上 面 
的 第 (2) 种 情况 。Coc=d(C,C) 一 d(A,C)=0 一 2 2, 

(4) D: D 原先 属于 A 中 心 点 所 在 的 簇 , 当 A 被 C 替换 以 后 , 离 D 最 近 的 中 心 点 是 
C, 属 于 上 面 的 第 (2) 种 情况 。Cpac 二 d(D,C) 一 d(D,A)=1 一 2 i; 

(5) E; EE 原先 属于 B PLATERIK, "4 A 被 C 替换 以 后 , 离 卫 最 近 的 中 心 点 仍然 
是 B, 属 于 上 面 的 第 (3) 种 情况 。Cmac = 二 0。 

因此 ,TCAc 三 Caac 十 Caac 十 Ccac 十 Cmc 十 Ceac 王 1 十 0 一 2 一 1 十 0 2。 同 理 , 可 以 计 
算出 TCAp =—2, TCi =—1, TCs =— 2, TCm = —2,TC 二 一 2。 在 上 述 代价 计算 完 
毕 后 ,我 们 要 选取 一 个 最 小 代价 ,显然 有 多 种 蔡 换 可 以 选择 ,选择 第 一 个 最 小 代价 的 替换 
(也 就 是 A 替换 C) ,这 样 ,样本 被 重新 划分 为 (4A,B,E} 和 {C,D} 两 个 灸 。 通 过 上 述 计算 ， 
已 经 完成 了 天 中 心 点 算法 的 第 一 次 迭代 。 在 下 一 次 迭代 中 ,将 用 其 他 的 非 中 心 点 
{4,B, 已 } 蔡 换 中 心 点 {C,D}, 找 出 具有 最 小 代价 的 替换 。 一 直 重 复 上 述 过 程 ,直到 代价 
不 再 减少 为 止 。 


9.4 -中 心 点 聚 类 算法 源 程序 分 析 




































































struct mem // 成 员 结 构 体 包含 符号 和 一 个 表示 是 否 是 中 心 点 的 属性 


struct Node; /队列 节点 
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/队列 节点 指针 
/队列 节点 结构 体 





mwem info; 


Foge link; 


F 

struct LinkQueuef /队列 数据 结构 
Pte f; 
Mæ r; 

J 

typedef struct LinkQueue * PLinkQueue; // 队 列 指 针 


ELinkQueue createEhptyQueue link() // 创 建 空 队列 函数 
{ 
HLinkRusus plou; 
Plqr (PLinkQueue)malloc {sizeof (struct LinkRueue))7 
if (plqu!=NULL) 
{ 
plqr > NIL; 
plar > 天 NOLL; 
) 
else 
Cout< < "Out of spaoe!"< < endl; 
retum plcu; 


int isEhptyoueue link(PLinkoueue plou) LAENE BASI E: š 3 2 8 88 
{ 
retum(plq+- > 会 =NULD) 7 


void enpueue Link (PLinkQueue plqu, mem x) // 元 素 入 队 函 数 
{ 
Po p; 
EF (BNode)malloc (sizeof (struct Node)); 
if (p==NJIL)cout< < "Out of space!"< < endl; 
else 
p-> info= x; 
p-> line NIL; 
if gly > 会 =NULDIPIgr > f=p; 
else plg > r-> line p; 
ply > r=p; 
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void deQueue link(ELinkoueue plqu) // 队 列 元 素 出 队 并 打印 函数 


t 


) 


MŒ p; 
if (plq > f== NJLL)oout< < "Empty Queue" < endl; 
else 
{ 
Pra > f; 
cout< <p- > info.synbol; 
ply > f=p- > link; 
free(p); 


void showCase (double linjiebiao[5] [5]) /打印 邻接 和 矩阵 函数 


{ 


void arbStart (struct mem nemlist [5]) 


{ 


int i,j; 


char tnp; 





cout<<" A B c D E "< <eml; 
for(i=0;i<5;ir++) 
{ 
switch(i) 
i 
case 0: np= 'A';break; 
case 1: np= 'B';break; 
case 2: tnp= 'C';break; 
Case 3: np= 'D';break; 
case 4: tnp 'E';break; 
} 
cout<< tnp; 
for(j= 0;j< 5;j++) 


Cout<<" "<<1imjiebiao[i] D]; 
cout< < endl ; 





==== "<< endl; 


// 起 初时 随机 确定 两 个 为 中 心 点 


int i,j; 


for(i=0;i< 5;it+) 
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) 
dable distance (int j, int i, int k, dable 1injiebiao[5] [5]) 
IRIRA ji kht p BENE AIAR 088 ,参考 邻接 矩阵 linjisbiao 


} 





证 fnemlist[i].isMedbidI= false) 
memlist [i] .isMedbid- false; 

srand( (nsigned) tine (NIL) ) ; 
=rand()%5; 
memlist [i] .isMedbid true; 
j=rand()%5; 
while(j==i) 
{ 

Frand()%5; 
} 
menlist [j] .isM=cbid= true; 


if (linjisbiaofj] [i]< linjisbiao[j] [k]) 
retum linjiebiao 3] [i]; 

else 

retum linjiebiao)] [k]; 


dable TC (int inæx[2],int i,int h, dable linjiebiao[5] [5]) 


/ 求 中 心 点 大 和 h 交 换 后 ,距离 代价 c hg E 4k 8 


int j; 

dable sme 0; 

int tnp; 

if (== index[0]) 
t= index[1]; 

else if (i== in3x[1]) 
np= ix [0]; 

for(G=0;j<5j++) 

{ 
Sumr = distance (j,h, tnp, linjiebiao)- distanoe (j, index[0], index[1], linjiebiao) ; 

) 

retum su; 


int smallest distanoe index (int index[2],int h,double linjiebiao[5] [5]) 


/判断 点 h 属 于 哪个 中 心 点 以 便 形 成 能 


int i,result= index[0]; 
for(i=0;i< 2;it+) 
if (linjiebiao[index[i]] [n]< linjiebiao[index[0]] h]) 
result= index[i]; 





return result; 


) 
void showQueue (ELinkoueue pq) // 打 印 出 队列 并 释放 队列 占用 的 内 存 空间 
Š 
Cout< < "("; 
Thile(iisEhptyoueue 1ink(pq)) 
I 
Geoueue link); 
cout< <","; 
) 
cout<< '\b'; 


oout< < "}"< < endl; 


void reposition ttemnemlist [5], dable 1injiebiao[5] [5]) 
/让 中 心 点 算法 关键 函数 ,是 该 算法 的 核心 体现 


int oount, oountl,h, i,k,holdi, holdh, index [2]; 
dable tenpdif; 
bool tnp; 


œ 
{ 
SS ss 每 次 训话 计算 出 更 新 后 的 两 个 中 心 点 的 序号 
Count]= 0; 
for (E= 0;k< 5;k+ + ) 
{ 
ifmemlist [k] .isMedoid== true) 
{ 
index [oxunt1]= k; 
OComtlr+ ; 


count= 0; 
for (= 0;h< 5;ht +) 
4 
for(i=0;i<5;it+) 
{ 
if tremlist[h] .isMedoid== falsesemlist [i] .isMedbid== true) 
| 
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证 Count==0) 
{ 
tenpdi £= TC (index, i,h, linjisbiao); 
holdi=i; 
holch=h; 
oountt + ; 
} 
else if (IC (index, i,h, linjiebiao)< tenpdif) 
( 


tepdi TC (index, i,hy linjiebiao); 
holdi= i; 
holdeh; 
Count+ 十 7 
) 
} 
} 
] 
if (tanpdif< 0) 
{ 
tnp= menlist [holdi] .isMedbid; 
memlist [holdi] .isMedbid= menlist [holdh] .isMedbid; 
memlist [holdh] .isMedoid= tnp; 
} 
else if (tanpdif>=0) 
break; 
/------- test-------- 
/ if(test==1) 
/ cout<< "Yes"< < endl; 
//------------------------- test---------- 
} 
while(]); 
} 
void nain() // 主 函数 ,提供 邻接 矩阵 ,出 示 成 员 集合 等 中心 点 算法 需要 的 输入 项 
{ 
int i,h,oomt; 
int index[2]; // 用 来 存储 为 中 心 点 的 两 个 点 的 索引 
FLinkoueue pq[2]; // 预 备 两 个 队列 用 以 存储 ,表示 两 个 能 
Pq[0]= createEhptyQueue link(); // 队 列 0 的 创建 
pall]= createEhptyQneue link(); // 队 列 1 的 创建 


dable linjisbiao[5 [5]= ((0,1,2,2,3),(1,0,2,4,3), (2/UPRR 0264288813), {3,3,5,3,0}}; 


// 





struct mem menilist [5]= {{false, 'A'}, (false, 'B'), (EAK fp ak A), (false, 'E')); 
showCase (linjisbiao)7 

cout< < "EIER ñE ñ 38k H EA 2 A "< < ez; 

Oout< < endl< < erndl< < endl; 

arbStart fremlist); // 随 意 确定 两 个 点 作为 中 心 点 


cout<< 嘻 始 化 后 的 中 心 点 分 布 情况 "< < endl; 


int k; 
for (E= 0;k< 5;k+ +) 

cout< <nemlist [k] .synbol< < " "< <nemlist [k] isMEcbidk < endl; 
reposition tnenlist, linjiebiao); / 改 中 心 点 算法 处 理 
cout< < endl< < endl< < endl; 


cout<< 骂 过 中 心 点 算法 处 理 后 的 中 心 点 分 布 情况 :"<< endl; 
for (k= 0;k< S;kr +) 

cout< <nemlist [k] .synbol< < " "< <nemlist [k] .isMedpidk < endl; 
out< < endl< < endl< < endl; 


count= 0; 
for(i=0;i<5;i++) 
{ 
if (remlist [i] .isMedoid== true) 


{ 
cout<<memlist[i] .synbol<< 是 最 终 得 到 的 中 心 点 "<<endl; 
eee Link(pq[count], memlist [i]); 
index [oont]=i; 
cont+ + ; 
) 
} 
for (= 0;h< 5;ht +) 


{ 
if memlist [h] .isMecpid= = false) 
{ 
if (srallest distance index (indx,h, linjiebiao)== index[0]) 
enRueue Link (pq[0], memlist[h]); 
else if (srallest distance index(index,h, linjiebiao)== index[1]) 
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erQueue Link(pq[l], memlist[h]); 


cout<<" 以 以 上 两 个 中 心 点 为 中 心 的 两 个 能 为 :<endl; 


showQueue (pq[0]) ; 
shwo (pq[1]) ; 


) 

结果 分 析 : 如 运行 结果 图 9-1 所 示 。 程 序 提供 邻接 矩阵 ,出 示 成 员 集合 等 K- 中 心 点 
算法 需要 的 输入 项 。 期 望 得 到 的 簇 的 数目 暂 定 为 2。 目 标 为 输出 2 个 簇 ,使 得 所 有 对 象 
与 其 最 近 中 心 点 的 相 异 度 总 和 最 小 。 首 先进 行 初始 化 ,起 初时 随机 确定 两 个 点 为 中 心 点 ， 
首 派 每 个 剩余 对 象 给 离 它 最 近 的 中 心 点 所 表示 的 簇 ,得 到 中 心 点 分 布 情况 。 然 后 经 过 
K- 中 心 点 算法 处 理 ,所 有 可 能 的 对 象 对 被 分 析 , 每 个 对 中 的 一 个 对 象 是 中 心 点 A 或 E, 而 
男 一 个 是 非 代表 对 象 B.C、D 中 的 一 个 ,计算 用 非 中 心 点 代替 中 心 点 的 总 代价 并 记录 ,如 
果 在 记录 中 有 小 于 0 的 存在 , 找 出 用 非 中 心 点 替代 中 心 点 后 代价 最 小 的 一 个 ,并 用 该 非 中 









1 "D: Program Files\Microsoft Visual Studio\MyProjects\9.4_PAM\Debug\9.4._PAM exe” lolok 


ey to continue 





图 9-1 程序 运行 结果 

















Kk- 中 心 点 了 类 算法 


心 点 蔡 代 对 应 的 中 心 点 ,形成 两 个 新 的 簇 ,如 此 反复 迭代 ,直到 不 再 发 生 簇 的 重新 分 配 , 最 
终 得 到 以 A.E 为 中 心 点 的 两 个 簇 : (A,B,C,D),(E)。 


9.5 天 -中 心 点 聚 类 算法 的 特点 及 应 用 
9.5.1 K- 中 心 点 聚 类 算法 的 特点 


K- 中 心 点 算法 其 优势 为 : 对 噪声 点 /孤立 点 不 敏感 ,具有 较 强 的 数据 鲁 棒 性 ; 聚 类 结 
果 与 数据 对 象 点 的 输入 顺序 无 关 ; 聚 类 结果 具有 数据 对 象 平移 和 正 交 变换 的 不 变性 等 。 

该 算法 的 缺陷 在 于 聚 类 过 程 的 高 耗 时 性 。 对 于 大 数据 集 ,K- 中 心 点 算法 聚 类 过 程 组 
慢 的 主要 原因 在 于 : 通过 迭代 来 寻找 最 佳 的 聚 类 中 心 点 集 时 ,需要 反复 地 在 非 中 心 点 对 
象 与 中 心 点 对 象 之 间 进行 最 近邻 搜索 ,从 而 产生 大 量 非 必需 的 重复 计算 。 


9.5.2 天 -中 心 点 聚 类 算法 的 应 用 


D) K- 中 心 点 算法 在 暂 住 人 口 分 析 中 的 应 用 。 人 口 资源 是 最 具 战 略 性 的 资源 ,作为 
世界 上 人 口 最 多 的 国家 ,加 强人 口 管理 现代 化 ,对 于 我 们 国家 各 项 事业 的 发 展 至 关 重 要 ， 
其 中 暂 住 人 口 管理 就 关系 着 治安 管理 。 把 大 中 心 点 应 用 到 暂 住 人 口 的 挖掘 中 ,可 以 发 现 
不 同 特征 的 暂 住 人 群 ,对 暂 住 人 口 的 调整 和 控制 有 很 大 的 帮助 。 

(2) K- 中 心 点 算法 在 软件 测试 中 的 应 用 。 在 软件 测试 过 程 中 ,测试 用 例 集 的 好 坏 直 
接 决 定 了 软件 测试 的 效率 高 低 。 如 何在 约 减 率 和 错误 检测 率 中 寻找 到 平衡 点 依然 是 一 个 
有 待 解决 的 难题 。 采 用 聚 类 分 析 中 的 划分 方法 天 中心 点 方法 对 原始 测试 用 例 集 进行 聚 
类 ,根据 聚 类 产生 的 结果 和 测试 需求 集 从 各 簇 中 选择 测试 用 例 , 以 此 构成 约 简 后 测试 用 例 
集 ,能 大 幅度 地 降低 测试 运行 代价 。 


9.6 小 结 
本 章 详细 地 介绍 了 K- 中 心 点 算法 的 基本 概念 ,基本 原理 ,并 用 实例 进行 了 说 明 , 同 时 


还 分 析 了 天 -中 心 点 算法 的 一 个 具体 的 源 程序 ,并 介绍 了 该 算法 的 特点 和 存在 的 缺陷 ,最 
后 介绍 了 天 -中 心 点 算法 的 应 用 ,从 中 可 以 看 出 K- 中 心 点 算法 的 应 用 非常 广泛 。 
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第 10 章 神经 网 络 聚 类 方法 : SOM 


10.1 简介 


生物 学 研究 表明 ,在 人 脑 的 感觉 通道 上 ,神经 元 的 组 织 原理 是 有 序 排 列 的 。 当 外 界 的 
特定 时 空 信息 输入 时 ,大 脑 皮层 的 特定 区 域 兴 奋 ,而 且 类 似 的 外 界 信息 在 对 应 的 区 域 是 连 
续 映 像 的 。 生 物 视 网 膜 中 有 许多 特定 的 细胞 对 特定 的 图 形 比 较 敏 感 , 当 视 网 膜 中 有 若干 
个 接收 单元 同时 受 特 定 模式 刺激 时 ,就 会 使 大 脑 皮 层 中 的 特定 神经 元 开始 兴奋 ,输入 模式 
接近 ,与 之 对 应 的 兴奋 神经 元 也 接近 ;在 听觉 通道 上 ,神经 元 在 结构 排列 上 与 频率 的 关系 
十 分 密切 ,对 于 某 个 频率 ,特定 的 神经 元 具有 最 大 的 响应 ,位 置 相 邻 的 神经 元 具有 相近 的 
频率 特征 ,而 远离 的 神经 元 具有 的 频率 特征 差别 也 较 大 。 大 脑 皮 层 中 神经 元 的 这 种 响应 
特点 不 是 先天 安排 好 的 ,而 是 通过 后 天 的 学 习 自 组 织 形成 的 。 

据 此 芬兰 Helsinki 大 学 的 Kohonen T. 教授 提出 了 一 种 自 组 织 特征 映射 网 络 (Self- 
Organizing feature Map. SOM) ,又 称 Kohonen 网 络 。Kohonen 认为 ,一 个 神经 网 络 接收 
外 界 输入 模式 时 ,将 会 分 为 不 同 的 对 应 区 域 , 各 区 域 对 输入 模式 有 不 同 的 响应 特征 ,而 这 
个 过 程 是 自动 完成 的 。SOM 网 络 正 是 根据 这 一 看 法 提出 的 ,其 特点 与 人 脑 的 自 组 织 特性 
W. SOM 的 目标 是 用 低 维 (通常 是 二 维 或 三 维 ) 目标 空间 的 点 来 表示 高 维 源 空间 中 的 
所 有 点 , 尽 可 能 地 保持 点 间 的 距离 和 邻近 关系 (拓扑 关系 ) 。 


10.2 党 争 学 习 算 法 基础 
10.2.1 自 组 织 神经 网 络 结构 





1. 定义 


自 组 织 神经 网 络 (Self-organizing feature Map. SOM) 是 无 导师 学 习 网 络 。 它 通过 自 
动 寻 找 样本 中 的 内 在 规律 和 本 质 属性 , 自 组 织 、 自 适应 地 改变 网 络 参数 与 结构 。 


2. 结构 


SOM 为 层次 型 结构 。 典 型 结构 是 : 输入 层 加 竞争 层 ,如 图 10-1 所 示 。 
输入 层 : 接收 外 界 信息 ,将 输入 模式 向 竞争 层 传递 ,起 “观察 "作用 。 
竞争 层 : 负责 对 输入 模式 进行 “分 析 比 较 ”, 寻 找 规律 并 归 类 。 
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图 10-1 自 组 织 神经 网 络 结构 


10.2.2 自 组 织 神经 网 络 的 原理 


1. 分 类 与 输入 模式 的 相似 性 


分 类 是 在 类 别 知识 等 导师 信号 的 指导 下 ,将 待 识别 的 输入 模式 分 配 到 各 自 的 模式 类 
中 的 ,无 导师 指导 的 分 类 称 为 聚 类 , 聚 类 的 目的 是 将 相似 的 模式 样本 划 归 为 一 类 ,而 将 不 
相似 的 分 离开 来 ,实现 模式 样本 的 类 内 相似 性 和 类 间 分 离 性 。 由 于 无 导师 学 习 的 训练 样 
本 中 不 含 期 望 输出 ,因此 对 于 某 一 输入 模式 样本 应 属于 哪 一 类 并 没有 任何 先 验 知识 。 对 
于 一 组 输入 模式 ,只 能 根据 它们 之 间 的 相似 程度 来 分 为 若干 类 ,因此 ,相似 性 是 输入 模式 
的 聚 类 依据 。 


2， 相 似 性 测量 


神经 网 络 的 输入 模式 向 量 的 相似 性 测量 可 用 向 量 之 间 的 距离 来 衡量 。 常 用 的 方法 有 
欧 氏 距离 法 和 余弦 法 两 种 。 

1) 欧式 距离 法 

设 X,X 为 两 向 量 , 其 间 的 欧式 距离 为 

d= |xX—X | = /(IX—X) (X 一 X)” (X-X) 表示 (X 一 X;) 转 置 ) 

(10-1) 
d WX 5 X, 就 越 接近 ,两 者 也 越 相似 , 当 d=0 时 ,二 X;; 以 d= TORO J AE 
对 输入 向 量 模式 进行 聚 类 分 析 。 

由 于 dz ,da ,da 均 小 于 T,dus ds sds HNF T, M du>TGO=4,5,6), da >TG=4, 
5,6) ,da>T(Gi=4,5,6), 故 将 输入 模式 XI. X. Xs: XI. X. X, 分 为 类 1 和 类 2 两 大 类 ,如 
图 10-2 所 示 。 

2) 余弦 法 

É X. X, 为 两 向 量 , 其 间 的 夹 角 余 弦 

















T 
T (XT RRAK) (10-2) 


g 越 小 ,XX 与 和 ; 就 越 接近 ,两 者 也 越 相似 ; 当 o=0 时 .cosg 二 1,X 二 XX;; 同 样 以 g 二 go 为 判 
据 可 进行 聚 类 分 析 。 


coso = 
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(a) 类 1 a (b) 类 2 


图 10-2 基于 欧式 距离 的 模式 分 类 


3. 竞争 学 习 原 理 


竞争 学 习 规则 的 生理 学 基础 是 神经 细胞 的 侧 抑制 现象 。 当 一 个 神经 细胞 兴奋 后 ,会 
对 其 周围 的 神经 细胞 产生 抑制 作用 。 最 强 的 抑制 作用 是 竞争 获胜 的 “ 唯 我 独 兴 ”, 这 种 做 
法 称 为 胜 者 为 王 ”(Winner-Take-All, WTA)。 竞 争 学 习 规则 就 是 从 神经 细胞 的 侧 抑制 
现象 获得 的 , 它 的 学 习 步骤 如 下 : 

1) 向 量 归 一 化 

对 自 组 织 网 络 中 的 当前 输入 模式 向 量 X、 竞 争 层 中 各 神经 元 对 应 的 内 星 权 向 量 
功 (j 王 1,2,…,m), 全 部 进行 归 一 化 处 理 ,如 图 10-3 
所 示 , 得 到 羡 和 Wi。 


二 二 至 
Ixi’ 


2) 寻找 获胜 神经 元 
将 惟 与 竞争 层 所 有 神经 元 对 应 的 内 星 权 向 量 
Wj 二 1,2,…,m) 进 行 相似 性 比较 。 最 相似 的 神经 
元 获胜 , 权 向 量 为 W, 。 图 10-3 向 量 归 一 化 
| X—w;- | = amn! IX—w,|} 





- - w 
x W= (10-3) 
iwl 

















> ||X—W,. | = /(&—w,-) (这 一 Wy 1 = /XXT — W. X +W,- WE 


= V2(1 —W; X") 


>W, XT = max(WiXT) (XT RIR X $m) (10-4) 
3) 网 络 输 出 与 权 调整 
J WTA 学 习 法 则 ,获胜 神经 元 输出 为 *1”, 其 余 为 0, 即 
oe 
naD -1 A (10-5) 
6, j=j' 


只 有 获胜 神经 元 才 有 权 调整 其 权 向 量 Wi ,其 权 向 量 学 习 调整 如 下 : 
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We (¿+ 1) = W,: (2) + AW;* =W; (1) +a(K -Wp ) 
. (10-6) 
W, +) =W,() j= ;' 
0<a<1 为 学 习 率 ,a 一 般 随 着 学 习 的 进展 而 减 小 , 即 调整 的 程度 越 来 越 小 , 趋 于 聚 类 
中 心 。 
4) 重新 归 一 化 处 理 
归 一 化 后 的 权 向 量 经 过 调整 后 ,得 到 的 新 向 量 不 再 是 单位 向 量 , 因 此 要 对 学 习 调整 后 
的 向 量 重新 进行 归 一 化 ,循环 运算 ,直到 学 习 率 衰减 到 0。 


10.3 SOM 算法 原理 
10.3.1 SOM 网 络 的 拓扑 结构 


从 网 络 结构 上 来 说 ,SOM 网 络 最 大 的 特点 是 神经 元 被 放置 在 一 维 、 二 维 或 者 更 高 维 
的 网 格 结 点 上 。 图 10-4 就 是 最 普遍 的 自 组 织 特征 映射 二 维 网 络 模型 。 











图 10-4 二 维 SOM 网 络 模型 


SOM 网 络 的 一 个 典型 特性 就 是 可 以 在 一 维 或 二 维 的 处 理 单元 阵列 上 ,形成 输入 信号 
的 特征 拓扑 分 布 ,因此 SOM 网 络 具 有 抽取 输入 信号 模式 特征 的 能 力 。SOM 网 络 一 般 只 
包含 有 一 维 阵列 和 二 维 阵列 ,但 也 可 以 推广 到 多 维 处 理 单元 阵列 中 去 。 下 面 只 讨论 应 用 
较 多 的 二 维 阵列 。 

输入 层 是 一 维 的 神经 元 ,具有 N 个 结 点 ,竞争 层 的 神经 元 处 于 二 维 平 面 网 格 结 点 上 ， 
构成 一 个 二 维 结 点 矩阵 ,共有 M 个 结 点 。 输 入 层 与 竞争 层 的 神经 元 之 间 都 通过 连接 权 值 
进行 连接 ,竞争 层 临近 的 结 点 之 间 也 存在 着 局 部 的 互联 。SOM 网 络 中 具有 两 种 类 型 的 权 
值 ,一 种 是 神经 元 对 外 部 输入 的 连接 权 值 , 另 一 种 是 神经 元 之 间 的 互 连 权 值 , 它 的 大 小 控 
制 着 神经 元 之 间 相互 作用 的 强 弱 。 在 SOM 网 络 中 ,竞争 层 又 是 输出 层 。SOM 网 络 通过 
引入 网 格 形成 了 自 组 织 特征 映射 的 输出 空间 ,并 且 在 各 个 神经 元 之 间 建 立 了 拓扑 连接 关 
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系 。 神 经 元 之 间 的 联系 是 由 它们 在 网 格 上 的 位 置 所 决定 的 ,这 种 联系 模拟 了 人 脑 中 的 神 
经 元 之 间 的 侧 抑制 功能 ,成 为 网 络 实现 竞争 的 基础 。 


10.3.2 SOM 权 值 调整 域 


SOM 网 采用 的 算法 称 为 Kohonen 算法 , 它 是 在 “ 胜 者 为 王 ”(Winner-Take-All， 
WTA) 学 习 规则 基础 上 加 以 改进 的 ,主要 区 别 是 调整 权 向 量 与 侧 抑制 的 方式 不 同 。 

WTA: 侧 抑制 是 “封杀 ? 式 的 。 只 有 获胜 神经 元 可 以 调整 其 权 值 , 其 他 神经 元 都 无 权 
调整 。 

Kohonen 算法 : 获胜 的 神经 元 对 其 邻近 神经 元 的 影响 是 由 近 及 远 , 由 兴奋 逐渐 变 为 
抑制 的 。 换 句 话说 ,不 仅 获胜 神经 元 要 调整 权 值 , 它 周围 的 神经 元 也 要 不 同 程度 地 调整 权 
向 量 。 常 见 的 调整 方式 有 以 下 几 种 。 

(1) 墨西哥 草帽 函数 : 获胜 节点 有 最 大 的 权 值 调整 量 , 临近 的 节点 有 稍 小 的 调整 量 ， 
离 获 胜 节点 距离 越 大 , 权 值 调 整 量 就 越 小 ,直到 某 一 距离 do 时 , 权 值 调整 量 为 零 ; 当 距离 
再 远 一 些 时 , 权 值 调整 量 稍 负 ,更 远 又 回 到 零 , 如 图 10-5(a) 所 示 。 

(2) 大 礼帽 函数 : 它 是 墨西哥 草帽 函数 的 一 种 简化 ,如 图 10-5(b) 所 示 。 

(3) 厨师 帆 函 数 ; 它 是 大 礼帽 函数 的 一 种 简化 ,如 图 10-5(c) 所 示 o 


wr) 








rmro 
= 


wr) 





(c) 
图 10-5 权 值 调整 函数 


以 获胜 神经 元 为 中 心 设 定 一 个 邻 域 半径 及 ,该 半径 固定 的 范围 称 为 优胜 邻 域 。 在 
SOM 网 络 学 习 方法 中 ,优胜 邻 域内 的 所 有 神经 元 , 均 按 其 离开 获胜 神经 元 距离 的 远近 不 
同 程度 地 调整 权 值 。 优 胜 邻 域 开 始 定 得 较 大 ,但 其 大 小 随 着 训练 次 数 的 增加 不 断 收缩 ,最 
终 收 缩 到 半径 为 零 。 
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10.3.3 SOM 网 络 运行 原理 


SOM 网 络 的 运行 分 训练 和 工作 两 个 阶段 。 在 训练 阶段 ,网 络 随机 输入 训练 集中 的 样 
本 ,对 某 个 特定 的 输入 模式 ,输出 层 会 有 某 个 节点 产生 最 大 响应 而 获胜 ,而 在 训练 开始 阶 
段 ,输出 层 哪个 位 置 的 节点 将 对 哪 类 输入 模式 产生 最 大 响应 是 不 确定 的 。 当 输入 模式 的 
类 别 改 变 时 ,二 维 平面 的 获胜 节点 也 会 改变 。 获 胜 节点 周围 的 节点 因 侧 向 相互 兴奋 作用 
也 产生 较 大 影响 ,于 是 获胜 节点 及 其 优胜 邻 域内 的 所 有 节点 所 连接 的 权 向 量 均 向 输入 方 
向 作 不 同 程度 的 调整 ,调整 力度 依 邻 域内 各 节点 距离 获胜 节点 的 远近 而 逐渐 减 小 。 网 络 
通过 自 组 织 方式 ,用 大 量 训练 样本 调整 网 络 权 值 ,最 后 使 输出 层 各 节点 成 为 对 特定 模式 类 
敏感 的 神经 元 ,对 应 的 内 星 权 向 量 成 为 各 输入 模式 的 中 心 向 量 。 并 且 当 两 个 模式 类 的 特 
征 接近 时 ,代表 这 两 类 的 节点 在 位 置 上 也 接近 。 从 而 在 输出 层 形成 能 反映 样本 模式 类 分 
布 情况 的 有 序 特 征 图 。 





10.3.4 学 习 方法 


对 应 于 上 述 运行 原理 ,SOM 网 络 采用 的 学 习 算法 按 以 下 步骤 进行 : 

1. 初始 化 

对 输出 层 各 权 向 量 赋 小 随机 数 并 进行 归 一 化 处 理 ,得 到 W;(j 二 1,2,…,m) ,建立 初 
始 优胜 邻 域 N;(0) 和 学 习 率 gI. m 为 输出 层 神经 元 数目 。 

2， 接 收 输入 

从 训练 集中 随机 取 一 个 输入 模式 并 进行 归 一 化 处 理 , 得 到 XX”(p 二 1,2,…,n),n 为 输 
入 层 神经 元 数目 。 

3. 寻找 获胜 节点 

计算 X" 与 矶 的 点 积 ,从 中 找到 点 积 最 大 的 获胜 节点 六 。 

4 定义 优胜 邻 域 Ni (D 


以 产 为 中 心 确定 上 时 刻 的 权 值 调整 域 , 一 般 初始 邻 域 N; (0) 较 大 (大 约 为 总 节点 的 
50% ~80%) ,训练 过 程 中 N;: (1) 随 训练 时 间 收 缩 , 如 图 10-6 所 示 。 


5. 调整 权 值 


对 优胜 邻 域 Nj* (7?) 内 的 所 有 节点 调整 权 值 。 
w(ti+1) = z; G) +a, Nr? ~w] i=1,2,.,n,j € N;: (t) 








(10-7) 
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图 10-6 邻 域 N;* (7) 的 收缩 


其 中 ,alt,N) 是 训练 时 间 t 和 邻 域内 第 j 个 神经 元 与 获胜 神经 元 ; "之 间 的 拓扑 距离 N 的 
函数 ,该 函数 一 般 有 以 下 规律 : 
tA >a y NA >a y ;如 a(1,N) 二 a(t)e*,al() 可 采用 1 的 单调 下 降 函 数 也 称 退火 函数 。 
6. 结束 判定 


当 学 习 率 c(D) 和 aaa 时 ,训练 结束 ;不 满足 结束 条 件 时 , 转 到 步骤 2) 继 续 。 
10.4 SOM 算法 实例 分 析 
10.4.1 问题 描述 


用 32 个 字符 作为 SOM 输入 样本 ,包括 26 个 英文 字母 和 6 个 数字 (1 一 6)。 每 个 字符 
对 应 一 个 5 维 向 量 ,各 字符 与 向 量 X 的 关系 如 表 10-1 所 示 。 由 表 10-1 可 以 看 出 ,代表 
A、B.C.D\E 的 各 向 量 中 有 4 个 分 量 相同 , 即 x ,x?,xf,x?,xf 二 0(i 二 1,2,3,4), 因 此 ， 
A.B.C.D.E 应 归 为 一 类 ;代表 F、G、H.、I.J 的 向 量 中 有 三 个 分 量 相同 , 同 理 也 应 归 为 一 
类 ;以 此 类 推 。 这 样 就 可 以 由 表 10-1 中 输入 向 量 的 相似 关系 ,将 对 应 的 字符 标 在 如 
图 10-7 所 示 的 树 状 结构 图 中 ,用 SOM 网 络 对 其 他 进行 聚 类 分 析 。 
表 10-1 字符 与 其 对 应 向 量 



















































































AIBICIDIEIFIGIBIIIJIKILIMINIOIPIQIRISITIU|YV.. 
X 1121314 1 5]3]3]3]31]3]3]3]3]3131]31]3]31]313]3]|3 
X 01010 0101112131 14 15]3]3]3]3131]31]31]31]313_3]323 
X 001 01010 101010 01011 2 314]5131]3131]31]3131]3% 
X 0101010101010101010101]01 10101 101]1 2]31]41]51]31]3- 
X 01010 0 101]01_0_01_010_0]0]0]|0_0]0 10] ]0|]0|0 1 2— 
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图 10-7 树 状 结构 图 


10.4.2 网 络 设计 及 学 习 结果 


1， 表 格 分 析 


A.B.C.D.E 的 各 向 量 有 4 个 分 量 相 同一 一 同类 。 
FG HIJ 的 各 向 量 有 3 个 分 量 相 同一 一 同类 。 


2. SOM 网 络 设计 


(1) 输入 层 节 点 数 n: 样本 维 数 =5。 

(2) 输出 层 节点 数 : 取 70 个 神经 元 ,二 维 平 面 阵 。 
(3) 权 值 初始 化 : 随机 小 数 。 

(4) N;: ORRE: ra) =10(1—¿/t,), 

(5) ZIRA) =C (1 一 t/tm)0. 5(1 一 t/tn)。 





3. 训练 


将 训练 集中 代表 各 字符 的 输入 向 量 X” 随机 选取 后 训练 ,经 10 000 步 训练 ,各 权 向 量 
趋 于 稳定 。 对 网 络 输出 ,进行 核准 , 即 根据 输出 神经 元 阵列 与 训练 集中 已 知 模式 向 量 对 应 
关系 的 标号 来 核准 。 结 果 是 : 70 个 神经 元 中 ,有 32 个 神经 元 有 标号 ,另外 38 个 为 未 用 神 
经 元 。 


10.4.3 结果 输出 


图 10-8 给 出 了 自 组 织 学 习 后 的 输出 结果 。SOM 网 络 完成 学 习 训练 后 , 对 于 每 一 个 
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输入 字符 ,输出 平面 中 都 有 一 个 特定 的 神经 元 对 其 敏感 ,这 种 输入 -输出 的 映射 关系 在 输 
出 特征 平面 中 表现 得 非常 清楚 。SOM 网 络 经 自 组 织 学 习 后 在 输出 层 形成 了 有 规则 的 拓 
扑 结构 ,在 神经 元 阵列 中 ,各 字符 之 间 的 相互 位 置 关系 与 它们 在 树 状 结构 中 的 相互 位 置 关 
系 类 似 , 两 者 结构 特征 上 的 一 致 性 是 非常 明显 的 。 














图 10-8 自 组 织 学 习 的 输出 结果 


10.5 SOM 算法 源 程序 分 析 
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#include< fstream.h> 
#šinc1ude< icnenip.h> 
#include< stdio.h> 
#include< stdlib.h> 
#include< math.h> 


#define InputLayerNum 35 

#define OutputIayerRow 8 

#define OutputIayerColmn 12 

#define total iteration Nm 80//10000//80//100//1000 

#define error limit 0.0000000000008//0.1//0.0000000000008//0.000000000000008// 
0.0001 

#define efficiency 0.9//0.3//0.9//0.3//0.9 


int i,j,k,1,m,n; 

int irputMode[26] [7] [5]; 

dable weight [OutputLayerRow* OutputTayerColum] [InputLayerNum] 7 
int current iteration rum= 0; 

dable study efficiency= efficiency; 

long double distance [OutrutlayerRoq* OutputlayerColum] ; 

int neighbor width= OutputLayerColun; 

int neighHbor height= OutputTayerRow; 

int row[OutputLayerRow] , column [OutputLayerColumn] ; 

int flag[OutputTayerFow] [OutputTayercolum]; 





int tap row,tenp colum; 
int winner row,winner colum; 


long dable min distanos= 1000.0; 


AE EAE EEE EK AEREE AEAEE AEE AEE AEE AEAEE AEAEE AEAEE AEAEE AEAEE AEAEE AEAEE AEE AEREE AEREE AEREE AEREE EERE / 


// 该 函数 初始 化 距离 变量 为 0 初始 化 保存 胜出 节点 的 位 置 的 变量 
JE HEESE AEREE EAE EAEE NEEE KEE AE IEEE AEE AE AEAEE AEE IE EAEE AEREE EAEE EEE AEE EE EEE ERE EER ERE EEE / 
void init distance() 
{ 
for (i= 0;i< OutrutIayerRoq;i+ +) 
for (j= 0;j< OutputlayerColum; j+ + ) 
distanœ[i* Outrutlayercolumr j]= 0.0; 
) 
J bbikhihbhithithibubhhbbtDbDbDtbikhbihbibhubbibhtbbibhbtbhbbithitbik ri 
// 该 函数 用 于 计算 欧 氏 距离 ,并 找到 获胜 神经 元 
JP EHE E REHE RE HEDE EAE AE ERE E NEDENE AEREE AE EAE DEREDE EERE ERE E BERENE AEAEE IEEE AEREE ENE HEREHEREA EAEE EAEE EEEE / 
void eula distance() 
{ 
int ttLow, ttUp, polow ppup; 
ttLow= winner oolum- neighbor width/2; 
ttUp= winner coltmnt neighbor width/2; 
plow winner rw- neighbor height/2; 
PUp winner row neighbor height/2; 
if (ttLo O) 
ttIow= 0; 
if (ttUp> = OstputTayerColum) 
ttUp= outputLayercolmn- 1; 
if (ppLow< O) 
EELow= 0; 
if (P = OutputLayerRow) 
PEU OutputTayerRow 1; 
for (i=rplow;i< =ərprUp;it+) 
for Q= ttlow;j< = ttUp;j+ + ) 
{ 
if(!(flagli]D]==100) 
{ 
for (m= Om 7;m +) 
for (p= 0;n< 5;nt +) 
distance[i * OutputLayerColmnt j]+= 
Pow( (inputMode[1] [m] [n] - weicht- [i * OutrutTayercolum+ j] mx 5+ n]),2); 
if(distance[i* OutrutlayerColum+ j]<min distance) 
t 
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} 





min distanoe= distance[ix OitprutTayerColunm+ j]; 
tap rori; 
tap colunr= j; 


} 
if (current iteration nm 0) 
{ 


if min distance<=error limit) 
I 
row[tenp row]= tawp row; 
colum[tenp columj]= tap olun; 
flag[tenp row] [temp _colum]=100; 


AWAAAAAAA3303885586X88X2E0KKKKKKKKKKKKKKKKKKXKKKKKKKKKKKKKKKKKKKKK/ 


/调整 权 值 


JGHEEHOHHGGOHHHHHHHHHHHHHHHHOHHOHHHHHHHHHHHHHHHHHHHHHH HEEE / 


void weight. change() 


{ 


int ttLow, ttUp, polow, ppup; 
Winner row=tenp row; 
winner colunr= tenp column; 
ttLow= winner oolum- neighbor width/2; 
ttUp= winner colmnr neighbor width/2; 
plow winner rw- neighbor height/2; 
pp winner rw neighbor height/2; 
if(ttIcw< O) 

ttIor 0; 
if (ttUp = OstputTayerColum) 

ttUp= Outrutlayercolum- 1; 
if (cpLow< O) 

pio 0; 
if (P = Output LayerRow) 

PO OutputTayerRow 1; 
for (i=rplow;i< =rrUp;i++) 
for (j= ttlow;)< = ttUp;j+ +) 
{ 

if(! (flagli] G]== 100)) 

{ 

for (m= Om 7;m +) 





for (= 0;n< 5;m +) 

weight [i * OubputLayerColmnr j] [m* 5+n]= 

weight [i * OutputTayerColumr j] mx 5rn]+ 

stny efficiency* (irputMode [1] Im] [n] weight [i* OtptTayerGolumr j] 
mx Stn]); 


} 

JAE EENE AEREE EE EREE AEREE E EAE AEREE AEE AE EAEE NEE AE EAEE AEREE WEEE AEREE KEEA EEEE EEEE KEKE / 
/调整 学 习 效率 以 及 获胜 节点 的 邻 域 大 小 

JPE HEHE E HENE HE HEDE EAEE EAE RE FEDERE HEERE AE ERE AEREA EAEE EAEE BEREE AEREE EERE EERE EAE EREE EREE EEE EEEE 
void parachange () 

t 


study efficiency study efficiency* (1.0- ((dable)amrent iteration mm) /total iteration Nm); 
neighbor width= int (neighbor width» (1.0- ((doible)aurrent iteraticn num /total iteration Nm)); 
neighbor height= int (neigtibor_ height * (1.0- ((double) arent iteraticn nm)/total iteration _ 
Nam)); 
} 
JAE RENE AEREE EAE EREE JEEE EERE AEAEE AEE AE EAEE AEE AE EAEE AEE EAEE AEAEE EEE EEEE EEEE EEE EEEE / 
// 该 函数 用 于 将 所 有 输入 模式 从 文件 中 读 入 ,并 存放 到 数组 inputhbpde 中 
// 同 时 进行 权 值 的 初始 化 ,采用 随机 赋值 的 方法 
JPE EHEHE PEHEE DEHE DEHE HE DE NEHE PEHEE PE HEDE PE HEDE PE HEDE BEERE BE EDE MEEA EERE HEREA EREA EAE MEEA MEEA REEI MEERE EAEE AER / 
void initialize () 
{ 
for (i= 0;i< OitrutlayerRow;i+ +) 
ro[i]= 100; 
for (j= 0;j< OutputlayerColum; j+ +) 
colum[D]= 100; 
for (i= 0;i< OubputLayerRow;i++) 
for (j= 0;j< OutputIayerColum; j+ + ) 
flagli] [j]= 0; 
/人 从 文件 中 将 所 有 输入 模式 读 和 人 ,并 存放 到 数组 inpo rh 
FIE * pf=fopen(" 由 关 数据 \\ 输 入 数据 \\input.txt","at "); 
if(pf==NILL) 
{ 
cout<< "Can not cpen input file!\n"; 


exit (0); 


for(i=0;i< 26;i++) 


for(=0j<7j++) 
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for (E= 0;k< 5;kr +) 
fscanf (pf, "šd",sirputMode[i] [j] [K]) ; 
///////////////////////////////////////7 
// 用 于 测试 是 否 能 够 正确 读 人 输入 模式 
dar character[26]; 
for (i= 0;i< 26;i++) 
Character[i]= (65+ i); 
ofstream moce ("相关 数据 \\ 输 出 数据 \\ 向 量 模 式 .tt",ios::out); 
for(i=0;i< 26;i++) 
{ 
mode< < character[i]< < "Nn"< < endl; 
for(j0;j< 7;j++) 
f 
for (E= 0;k< 5;k+ +) 
mode< < inputMbæ[i] [j] [k] < <" "; 
node< < "Nn"; 
) 
mode< < "\n\n\n"; 
) 
//////////////////////////////////////// 
// 权 值 初始 化 ,采用 随机 赋值 的 方法 
for (i= 0;i< Outrut1ayerFow;i+ + ) 
for (j= 0;j< OutputTayercolinn;j+ + ) 
for (k= 0;k< IrputlayerNnykt + ) 
weight [i * OitrutTayerColunmr j] [k]= (Gouble (rand()%101))/100.0; 
lh 
// 用 于 测试 是 否 能 够 正确 初始 化 权 值 
ofstream quan ("相关 数据 \\ 输 出 数据 \\ 初 始 的 权 值 .txt",ios::out); 
for (i= 0;i< OutputIayerRow;i+ + ) 
for (j= 0;j< OubputLayerColummn;j++) 
{ 
quan < "\n\n\n"< < "Nde<<it 1<< "] [<< j+ 1< < "]"< < "Nn"; 
for (E= 0;k< IrputT1ayerNNnyk+ + ) 
{ 
if(kš5==0) 
qax < "Nn"; 
quan< < setprecisicn(6)< < setiosflags (ios: :fixed)< <weight [i * 
OutputlayerColumr j] [k]< <" gi 
} 
quan< < "\n\n\n"; 
} 
Mh 
} 
void main(void) 
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int iteration mnbers[26]; 
int total rum= 0; 


char character[26]7 
void test. netWork 1(); //functicn œclaration 
void test. netWork 2(); //functicn declaraticn 


for (1= 0;1< 26;1++) 
{ 
iteration mnbers[1]= 0; 
character[1]= (65+ 1); 
} 
initialize(); 
for(1=0;1< 26;l++ ) 
{ 
Winner row= OutputlayerRow/2; 
winner_colunr= OutputLayerColumny/27 
while (current. iteration nu total iteration Nm) 
{ 
init distance(); 
eula distance(); 
weight. chance () ; 
if min distanoe< =error limit) 
break; 
++ Current iteration mn; 
Pparachange () ; 
F 
iteration nmibers[]]= current iteration nuw 1; 
neighbor width= OutputLayerColum; 
neighbor height= OutputLayerRow; 
study efficiency= efficiency; 
Current: iteration mne 0; 
min distance= 1000.0; 
) 
for(l= 0;1< 26;l++ ) 
total mm = iteraticn mnbers[1]; 
ofstream iteration mm(" 相 关 数 据 \\ 输 出 数据 \\ 迭 代 次 数 tt", ios: cut); 
for(l= 0;]< 26;l++ ) 
{ 
iteratim nmK<dharacter0]<<" 和 迭代 "<iteration nnbers0]<< 吹 ox<edl; 
if(l==25) 
iteration nm < "A kit g JE 28 ÜV "< < total mc < "IK 1\n"<< endl; 
} 
ofstream all weight ("相关 数据 \\ 输 出 数据 \\ 训 练 后 所 有 权 值 ot", ios: zott); 
ofstream winner weicht ("相关 数据 \\ 输 出 数据 \\ 训 练 后 胜出 权 值 .txt",ios::out); 
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for (i= 0;i< OutputLayerRow;i++) 
for = 0;j< OutputIayerColum; j+ + ) 
{ 
printf ("\n\n\n"); 
all weight< < "\n\n\n"< < "Node["< < i+ 1< < "]["c < j+ 1< < "]"< < "Nn"; 
for (E= 0;k< IrputlayerNm;k+ + ) 
t 
if(k*$5==0) 
t 
printf ("Vn"); 
all weight< < "Nn"; 
$ 
/* JUU 
if (weight [i * OutputLayerColumnt j] [k]> 0.9999999) 
weight [i * OutputIayerColum+ 3] [k]= 1.0; 
if (weight [i * OutrutTayercolum j] [k]< 0.0000001) 
weight [i * OutputIayerColumnt j] [k]= 0.0; 
x //////////////////////////////////// 
Printf(%f ",weight[i* OutputLayerColum* j] [K]) ; 
all weight< < setprecisicn(8)< < setiosflags (ios: : fixed) < < weight [i * OutputLayercolumr j] [k]< < " 


w 
; 


) 
ofstream winner node(" 相 关 数 据 \\ 输 出 数据 \\ 获 胜 节点 .tt",ios::out); 
for (i= 0;i< OutputLayerRow;it + ) 
for (j= 0;j< OutputLayerColum; j+ +) 
{ 
if (flag[li] [j]== 100) 
{ 
printf ("\n\n\n"); 
wimer weight< < "\n\n\n"< < "Node["< < i+ 1< < "] ["< < j+ 1< < "]"< < "Nn"; 
for (k= 0;k< IrputlayerNnyk+ + ) 
f 
if(kš5==0) 
{ 
printf ("un"); 
Winner weight< < "Vn"; 
) 
/* ////////////////////////////////// 
if (weight [i * OutputLayerColummnt j] [k]> 0.9999999) 
weight [i * OrtputTayerColumr j] [k]= 1.0; 
if (weight [i * OutputlayerColum+ j] [K] < 0.0000001) 
weight [i * OitputTayerColumr j] [k]= 0.0; 
*/ A 
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) 





Printf(%f ",weidht[i* OutputIayerColum j] [k]); 
Winner weight< < setprecision(8)< < setiosflags (ios: :fixed)< < weight [i * OutputLayerColum+ 3] [k]< 
<" 号 
) 
Winner node<< "Node ["< < i+ 1< < "] ["< < j+ 1< < "]"< < endl; 


} 

printf ("\n"); 
//////////////////////////////888 
// 网 络 测试 

test netWork 1(); 

test netWork 2(); 


诺 尖 美光 闫 尖 闫 闪闪 尖 关 尖 尖 尖 闫 尖 尖 关 尖 尖 尖 关 关 尖 关 闫 尖 关 关 尖 关 关 尖 闫 尖 关 关 尖 关 关 关 尖 关 闫 尖 关 关 关 关 关 关 闫 关 关 关 关 关 关 关 关 / 


// 利 用 标准 数据 测试 训练 后 的 网 络 


JPE EREE EIEE HEIE EREE EAEE EPEE HEEE PE EAE PENEI EREE EAEE EAEE IEEE PE EAE AEREA IEE JEEE AEREE EAEE EAEE / 


void test_netWork 1() 


{ 


ofstream test1(" 相 关 数 据 \\ 输 出 数据 \\ 标 准 测试 .tzt", ios::out); 
char haracter [26]; 
for(i= 0;i< 26;i++) 
Character [i]= (65+ i); 
for (l= 0;1< 26;1++) 
{ 
for (i= 0;i< OubputLayerRow;i++) 
for j= 0;j< OutputLayerColmn;j++) 
distance[ix OutputIayercolinmt j]= 0.0; 
min distance= 1000; 
for (i= 0;i< OtputLlayerRow; i+ + ) 
for (j= 0;j< OuitputLayerColum; j+ + ) 
{ 
for (m= 0;m< Tmt + ) 
for (m= 0;n< S;nr +) 
distance [i * OutputlayerColunmr 3]+ = (long dable) 
Pow (((1ong dxble)iirputMode [1] [m] [n]- (long Goible)weight [i * OutputLayerColummnt j] [m 


* 5+n]),2); 
if (distanœ[i* OutprutlayerColum+ j]<min distance) 
{ 
min distanoe= distance[ix OutrutTayerColumr j]; 
tap rori; 
tap _ colmn= 3; 
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} 


BEERE EREE EE AEREE AEREE AEREE AEREE AEAEE IEEE AEAEE IEEE AEAEE AEAEE AEAEE AEAEE AEE AEAEE AEAEE AEAEE EAEE AE / 


// 利 用 非 标准 数据 测试 训练 后 的 网 络 


AE EE EREE EE AEREE AEREE REEK AEREE AEAEE AEAEE AEREE KKKKKKKKKKKKKKKKKKKKKKKKKKKKKK/ 





test1< < character[1]< < "'s winner is Node ["< < tenp _rogt 1< < "] ["< < tap_oolum+ 1< < "]"< < 
endl<<endl; 


void test. netWork 2() 


t 


ofstream test2(" 相 关 数 据 \\ 输 出 数据 \\ 非 标准 测试 .tt",ios::out); 
Char character[26]7 
FIE * pf= fopen(" 相 关 数 据 \\ 输 入 数据 \\ 非 标准 数据 测试 .txt","at "); 
if (p= =NULL) 
{ 
cout< < "Can not open input file!Vn"; 
exit (0); 
} 
for(i= 0;i< 26;i+t +) 
for (j=0;j<7;j++) 
for (k= 0;k< S;kt + ) 
fscanf (pf, "sd", &inputMode[i] [j] [K]) ; 
for(i=0;i<26;i++) 
Character [i]= (65+ i); 
for(l= 0;1< 26;1++) 
{ 
for (i= 0;i< OtputLayerRow; i+ +) 
for (j= 0;j< OutputLayerColum; j+ + ) 
distance[i * OutputLayerColum+ j]= 0.0; 
min distance= 1000; 
for (i= 0;i< OtputLlayerRow; i+ + ) 
for (j= 0;j< OuttputLayerColum; j+ + ) 


í 
for (m= 0;m< 7;mt +) 
for (p= 0;n< S;nt +) 
distance[i * OutputLayerColmnt j]+= (long double) 
Pow(((cng dable) irputMode [1] [m] [n]- (long Goble)weight [i * OutputLayerColummnt j] [m 
* S+n]),2); 
if (distanœ[i* OutrutlayerColum+ j]<min distance) 
{ 
min distanoe= distance[ix OutputlayerColum+ j]; 
tap rŪ i; 
tap colmn= j; 
} 
} 


神经 网 络 聚 








< tanp rw 1< < 





<tap _columr 1<<"]" 





结果 分 析 : 运行 结果 如 图 10-9 所 示 。 程 序 对 输出 层 各 权 向 量 赋 小 随机 数 并 进行 归 
一 化 处 理 , 然 后 初始 化 距离 变量 为 0， 建立 初始 优胜 邻 域 和 学 3 的 初 值 。 从 训练 集中 随 
机 取 一 个 输入 模式 并 进行 归 一 化 处 理 , 计算 竞争 层 每 个 节点 和 输入 模式 的 欧 氏 距离 , 欧 
氏 距 离 最 小 的 节点 即 为 获胜 节点 。 以 获胜 节点 为 中 心 确定 t+ 时 刻 的 权 值 调整 域 ,训练 过 
程 中 权 值 调整 域 随 训练 时 间 收 缩 。 对 优胜 邻 域内 的 所 有 节点 调整 权 值 。 

JE Njs (t) 














wlt +1) = w(t) +a, N)[xf ~—ws(t)] i=1 


E "EATDDOWNLOAD\firefon\8022411250M_AlgorithmiSOM,Algorithm\Debug\SOM Algorithmexe" (els EE 
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(10-8) 
其 中 ,a(z,N) 是 训练 时 间 z 和 邻 域内 第 7 个 神经 元 与 获胜 神经 元 六 之 间 的 拓扑 距离 N 的 
函数 。 当 学 习 率 a(?) 人 amio 时 ,训练 结束 。 然 后 利用 标准 数据 测试 训练 后 的 网 络 ,再 利用 
非 标 准 数 据 测试 训练 后 的 网 络 。 














10.6 SOM 算法 的 特点 及 应 用 


10.6.1 SOM 特点 


优点 是 : 它 将 相 邻 关系 强加 在 簇 质心 上 ,所 以 , 互 为 邻居 的 簇 之 间 比 非 邻 居 的 入 之 间 
更 相关 。 这 种 联系 有 利于 聚 类 结果 的 解释 和 可 视 化 。 

缺点 是 : 四 用 户 必 选 选择 参数 、 邻 域 函数 、 网 格 类 型 和 质心 个 数 。@ 一 个 SOM fkl 
常 并 不 对 应 单个 自然 秒 , 可 能 有 自然 焦 的 合并 和 分 裂 。 例 如 , 像 其 他 基于 原型 的 聚 类 技术 
一 样 , 当 自 然 艇 的 大 小 、 形 状 和 密度 不 同时 ,SOM 倾向 于 分 裂 或 合并 它们 。@ SOM 缺乏 
具体 的 目标 函数 。SOM 受 限于 质心 之 间 的 地 形 约束 (为 了 更 好 地 近似 数据 的 质心 集合 ); 
但 是 SOM 的 成 功 不 能 用 一 个 函数 来 表达 。 这 可 能 使 得 比较 不 同 的 SOM 聚 类 的 结果 是 
困难 的 。@SOM 不 保证 收敛 ,尽管 实际 中 它 通常 收敛 。 





10.6.2 SOM 应 用 


1. 汽 轮 发 电机 多 故障 诊断 的 SOM 神经 网 络 方法 


汽 轮 发 电机 组 的 振动 故障 具有 多 样 性 的 特点 ,经 常 出 现 多 种 故障 同时 发 生 的 情况 。 
传统 的 BP 神经 网 络 方法 可 对 单一 故障 有 效 诊 断 , 若 要 对 多 故障 进行 诊断 , 则 需 对 各 种 多 
故障 样本 进行 学 习 , 使 输入 空间 在 训练 过 程 中 被 样本 空间 完全 履 盖 ,将 大 大 增加 样本 空间 
及 学 习 训练 负担 ,同时 网 络 归纳 、 联 想 能 力 随 之 大 幅度 下 降 , 诊 断 难 以 实施 。 因 此 ,可 以 将 
自 组 织 特征 映射 (SOM) 神 经 网 络 用 于 汽 轮 发 电机 组 的 振动 多 故障 诊断 ,用 单一 故障 样本 
对 网 络 进行 训练 ,根据 输出 神经 元 在 输出 层 的 位 置 对 多 故障 进行 判断 。 


2. 基于 SOM 神经 网 络 的 柴油 机 故障 诊断 


利用 神经 网 络 的 非 线性 映射 及 其 高 度 的 自 组 织 和 自学 习 能 力 , 将 SOM 网 络 应 用 于 
柴油 机 的 故障 诊断 。 利 用 传感器 获得 柴油 机 喷射 系统 的 燃油 压力 波形 ,对 波形 进行 时 域 
分 析 和 特征 提取 。 根 据 所 取得 故障 信息 及 其 对 应 的 故障 类 型 来 构造 网 络 结构 ,用 单一 故 
障 样本 对 网 络 进行 训练 ,根据 输出 神经 元 在 输出 层 的 位 置 对 故障 进行 判断 。 


10.7 小 结 


Kohonen 1982 年 提出 的 SOM 自 组 织 映射 神经 网 络 是 一 个 巧妙 的 神经 元 网 络 , 它 建 
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神经 网 络 聚 类 方法 ; SOM 





立 在 一 维 、 二 维 或 三 维 的 神经 元 网 络 上 ,用 于 捕获 包含 在 输入 模式 中 感 兴趣 的 特征 ,描述 
在 复杂 系统 中 从 完全 混乱 到 最 终 出 现 整体 有 序 的 现象 。 

自 组 织 映 射 也 可 以 看 成 向 量 量化 器 ,从 而 提供 一 个 导出 调整 权 值 向 量 的 更 新 规则 的 
原理 性 方法 。 此 方法 明确 地 强调 邻 域 函 数 作为 概率 密度 函数 的 作用 。 

本 章 讨论 竞争 算法 的 学 习 过 程 ,在 此 基础 上 进一步 介绍 了 自 组 织 SOM 神经 网 络 的 
结构 .工作 原理 。 最 后 介绍 了 SOM 神经 网 络 在 聚 类 分 析 、 复 合 材料 的 损伤 检测 中 的 具体 
应 用 。 


1. 请 介绍 SOM 神经 网 络 的 基本 构造 及 工作 原理 。 
2. 自 组 织 神经 网 络 由 输入 层 和 竞争 层 组 成 , 设 初始 权 向 量 已 归 一 化 为 
W =[1 0], W=[0 —1J 
现 有 4 个 输入 模式 , 均 为 单位 向 量 。 
X, =1⁄ 45, X=1/—135, X, =1Z90, X=1/—180° 
试用 WTA 学 习 算 法 调整 权 值 ,给 出 前 20 次 的 权 值 学 习 结果 。 
3. 给 定 5 个 四 维 输入 模式 如 下 。 
w= Jb 0 OP N =i j q 6]; 
X = 6 j o ON X= i 1 1⁄ 
试 设计 一 个 具有 5X5 神经 元 的 平面 SOM 网 络 ,学 习 率 (1) 在 前 1000 步 训 练 中 从 0. 5 线 
性 下 降 到 0. 04, 然 后 在 训练 到 10 000 步 时 减 小 到 0, 优 胜 邻 域 半 径 初始 值 设 为 相 邻 的 2 个 
节点 ,1000 个 训练 步 时 降 为 0, 即 只 含 获胜 神经 元 。 每 训练 200 步 记录 一 次 权 值 ,观察 其 
在 训练 过 程 中 的 变化 情况 。 给 出 训练 结束 后 ,5 个 输入 模式 在 输出 平面 上 的 映射 图 ,并 观 
察 下 列 输入 向 量 映射 区 间 。 
F =[1 0 0 1], F,=[ 1 0 1, F=[0 1 1 0. 
Fe = 0 o 1, Fdc= [06 4 P 3 
4. 介绍 一 例 SOM 神经 网 络 的 具体 应 用 。 
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第 11 章 数据 挖掘 的 发 展 


11.1 Web 挖掘 


随 着 互联 网 上 信息 不 断 呈现 爆炸 式 的 增长 ,互联 网 企业 在 这 些 海量 的 数据 信息 面前 
显得 更 加 手足 无 措 。 合 理 地 利用 网 络 上 面 的 数据 信息 来 提高 网 站 的 用 户 体验 成 为 首要 需 
求 。 有 需求 就 有 进步 ,数据 挖掘 技术 就 这 样 被 引入 了 互联 网 领域 ,从 而 发 展 成 为 一 个 独立 
的 研究 方向 一 一 Web 数据 挖掘 。 








11.1.1 Web 数据 挖掘 定义 


Web 数据 挖掘 就 是 传统 数据 挖掘 技术 在 互联 网 领域 的 应 用 , 它 的 目标 就 是 从 海量 
的 、 含 噪声 的 ,无 结构 化 的 网 络 数据 中 提取 出 潜藏 在 背后 的 有 价值 的 知识 。Web 数据 挖 
气 主 要 包含 基于 网 页 内 容 的 挖掘 ,基于 用 户 使 用 习惯 的 挖掘 和 基于 网 页 结构 的 挖掘 。 它 
们 所 使 用 的 算法 和 应 用 领域 是 不 同 的 。 

在 如 今 互联 网 技术 飞速 发 展 的 年 代 ,传统 的 数据 挖掘 技术 已 经 远 远 不 能 满足 现在 
Web 数据 挖掘 的 要 求 了 。Web 数据 挖掘 面临 着 更 加 严峻 的 挑战 ,首先 ,网 络 上 面 收集 的 
数据 信息 是 无 结构 或 非 结构 化 的 ,差异 化 的 数据 源 给 数据 预 处 理 加 大 了 难度 ;其 次 ,互联 
网 上 的 信息 时 刻 都 以 GB 为 单位 在 不 断 增长 ,并且 是 在 动态 变化 的 ,所 以 我 们 在 做 Web 
数据 挖掘 系统 的 时 候 应 考虑 系统 的 实时 性 ;最 后 ,互联 网 的 用 户 形 形 色 色 各 不 相同 ,他 们 
有 着 不 同 的 知识 背景 ,年 龄 ,收入 和 兴趣 爱好 等 ,这 就 决定 了 他 们 感 兴趣 的 内 容 是 有 差别 
的 。 总 而 言 之 ,现在 互联 网 实际 需求 给 Web 数据 挖掘 提出 了 更 高 的 要 求 ,主要 包括 系统 
的 并 行 性 、 更 高 的 挖掘 效率 ,实时 动态 性 和 有 效 地 组 织 和 管理 数据 的 能 力 。 





11.1.2 Web 数据 挖掘 分 类 


Web 数据 挖掘 根据 研究 的 对 象 不 同 ,可 以 分 为 基于 网 页 内 容 的 挖掘 .基于 用 户 使 用 
习惯 的 挖掘 和 基于 网 页 结构 的 挖掘 三 类 。 它 们 各 自 应 用 的 算法 和 应 用 领域 如 图 11-1 
所 示 。 


1. 基于 网 页 内 容 的 挖掘 


基于 网 页 内 容 的 挖掘 是 指 通 过 对 网 页 中 的 文档 数据 和 内 容 进行 挖掘 并 获取 知识 的 
过 程 。 目 前 的 Web 数据 挖掘 要 求 对 网 页 中 的 各 类 内 容 信息 都 能 加 以 处 理 , 从 网 页 内 容 的 
角度 来 讲 , 基 于 网 页 内 容 的 挖掘 可 以 分 为 多 媒体 信息 挖掘 和 文档 信息 挖掘 两 种 ,按照 采用 
方法 的 不 同 , 它 又 可 以 分 为 信息 抽取 方法 和 数据 库 方法 两 种 。 信 息 抽取 方法 指 的 是 利用 
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关联 规则 关联 规则 HTML 文 档 挖掘 
语义 Web 个 性 化 服务 导航 
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搜索 结果 挖掘 客户 分 析 
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多 媒体 挖掘 系统 改善 建议 

电子 商务 

人 侵 检测 

Web 代 理 








图 11-1 Web 数据 挖掘 的 分 类 


信息 抽取 技术 来 处 理 无 结构 或 半 结构 的 网 页 数据 ,提高 和 优化 搜索 信息 的 质量 。 数 据 库 
方法 指 的 是 首先 利用 数据 转换 技术 将 无 结构 的 数据 转换 成 数据 库 对 应 的 有 结构 的 数据 ， 
然后 再 利用 数据 挖掘 技术 对 数据 进行 挖掘 。 


2， 基 于 用 户 使 用 习惯 的 挖掘 


用 户 日 常 访 问 网 络 的 时 候 会 产生 大 量 的 记录 信息 ,而 网 络 服务 器 会 自动 记录 并 存储 
下 这 些 信息 。 这 些 信息 中 记录 了 用 户 的 访问 网 址 ` 访 问 时 间 、 传 输 的 内 容 和 用 户 的 IP 地 
址 等 数据 。 这 些 数据 都 被 存储 在 用 户 的 访问 日 志文 件 中 , 它 通常 能 够 反映 出 用 户 的 访问 
规律 个 人 兴趣 和 整个 上 网 行为 。 基 于 用 户 使 用 习惯 的 挖掘 所 研究 的 对 象 就 是 用 户 访问 
日 志文 件 ,通过 挖掘 日 志 数据 来 预测 用 户 的 上 网 行为 和 趋势 等 。 基 于 用 户 使 用 习惯 的 控 
所 可 以 分 为 个 性 化 挖掘 和 用 户 访问 模式 挖掘 两 类 ,个 性 化 挖掘 主要 针对 于 研究 个 人 的 偏 
好 ,其 目的 就 是 为 不 同 访问 模式 的 用 户 提供 不 同 的 动态 化 服务 建议 ,而 用 户 访问 模式 挖掘 
主要 是 通过 分 析 用 户 的 访问 日 志 , 来 总 结 用 户 的 访问 习惯 和 倾向 ,发 现 网 页 空间 最 高 效 的 
逻辑 结构 的 。 


3. 基于 网 页 结构 的 挖掘 


基于 网 页 结构 的 挖掘 就 是 通过 研究 站 点 之 间 的 组 织 关系 、 相 互 引 用 和 链接 的 关系 以 
及 网 页 文档 结构 来 挖掘 出 知识 。 基 于 网 页 内 容 的 挖掘 对 象 主要 是 内 部 网 页 文档 ,而 基于 
网 页 结构 的 挖掘 的 对 象 主要 是 外 部 引用 和 超 链 接 的 结构 。 它 的 挖掘 目的 是 寻找 潜藏 在 网 
页 结构 背后 的 有 用 模式 ,通过 对 网 页 的 应 用 和 超 链 接 进行 分 析 来 找 出 权威 的 页 面 , 并 发 现 
网 页 的 结构 以 便 更 有 利于 用 户 阅 读 。 
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11.1.3 Web 数据 挖掘 的 数据 源 


前 面 已 经 提 到 了 Web 数据 挖掘 的 数据 源 一 般 具 有 多 类 型 无 规律 .无 结构 和 多 噪声 
的 特点 。 数 据 源 的 巨大 差异 性 决定 我 们 必须 对 其 进行 分 类 ,并 加 以 区 别 地 处 理 和 对 待 。 
数据 源 信息 主要 包括 以 下 几 类 : 


1. 用 户 的 注册 信息 


用 户 的 注册 信息 是 最 直接 ,最 简单 的 数据 源 信息 , 它 一 般 是 用 户 注册 的 时 候 主动 留 下 
来 的 信息 ,通常 包括 性 别 . 居 住地 、 姓 名 、. 职 业 , 收 入 .邮箱 和 兴趣 爱好 等 。 这 些 信息 通常 和 
用 户 的 访问 日 志 一 起 使 用 ,来 定位 用 户 所 属 的 群体 ,描述 用 户 的 大 概 背景 情况 。 





2. 网 页 内 容 信息 


网 页 内 容 信息 主要 包括 文档 信息 和 多 媒体 信息 两 类 ,再 细 分 下 去 就 包括 文章 、 图 片 、 
音频 、 视 频 , 广 告 .评论 等 内 容 。Web 数据 挖掘 通常 会 对 这 些 不 同 的 信息 进行 提取 标签 和 
单词 向 量 ,以 便 描 述 内 容 的 种 类 ,方便 进行 聚 类 、 分 类 或 相似 度 比较 ,网 页 内 容 信息 是 推荐 
系统 最 常用 的 数据 源 。 


3. 网 页 站 点 结构 信息 


网 页 站 点 结构 信息 是 Web 数据 挖掘 最 主要 的 对 象 之 一 , 它 包 括 网 站 之 间 的 引用 和 链 
接 关 系 , 网 站 的 组 织 结构 信息 等 。 通 过 研究 网 页 站 点 结构 信息 可 以 发 现 用 户 的 浏览 规律 
和 习惯 ,可 以 帮助 我 们 优化 网 页 站 点 的 组 织 结构 ,提高 超 链接 的 合理 性 ,形成 清晰 的 站 点 


4。 用 户 搜索 数据 


用 户 在 互联 网 上 的 行为 已 经 离 不 开 搜索 引擎 (包括 站 内 搜索 和 互联 网 搜索 )。 搜 索引 
人 擎 可 以 帮助 用 户 快速 地 找到 他 们 感 兴趣 的 信息 ,达到 他 们 上 网 的 目的 ,所 以 用 户 每 次 提交 
给 搜索 引擎 的 查询 信息 会 反映 用 户 的 兴趣 、 偏 好 和 上 网 目的 等 。 通 过 对 这 些 搜索 数据 信 
息 的 分 析 和 挖掘 ,我 们 就 可 以 更 加 了 解 用 户 的 需求 和 使 用 习惯 ,并 通过 挖掘 搜索 的 关键 
字 , 来 优化 内 容 的 标签 和 单词 向 量 ,提高 搜索 的 准确 性 。 


5. 网 页 日 志 信息 


网 页 日 志 信息 是 记录 用 户 访问 站 点 情况 的 数据 信息 , 它 一 般 保存 在 网 页 服务 器 或 代 
理 服务 器 中 。 网 页 服务 器 又 包含 服务 器 和 客户 端 ,保存 在 客户 端的 网 页 日 志文 档 就 是 
cookie logs ,而 保存 在 服务 器 的 网 页 日 志 就 包含 error logs 和 server logs 两 种 ,例如 常用 
的 日 志 格式 是 Apache 的 扩展 日 志 格式 (ECLF) 。 
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6. 代理 服务 器 数据 


代理 服务 器 是 用 来 缓存 用 户 与 站 点 服务 器 之 间 交互 数据 的 中 介 服 务 器 ,其 目的 是 组 
解 网 络 压 力 ,提高 网 页 浏览 的 速度 。 在 代理 服务 器 端 一 般 存储 了 所 有 用 户 访问 网 站 的 记 
录 信 息 , 通 过 对 这 些 数据 进行 挖掘 就 能 有 效 地 得 到 用 户 的 访问 模型 信息 ,为 用 户 提高 个 性 
化 的 推荐 和 营销 策略 。 


11.1.4 Web 数据 挖掘 中 知识 的 分 类 


总 体 来 说 , Web 中 的 知识 可 以 分 为 三 类 。 第 一 类 知识 叫 作 隐 性 知识 , 它 一 般 存 在 于 
非 结构 化 的 文本 当中 ,比如 用 户 发 表 的 留言 或 博文 等 ;第 二 类 知识 是 显 性 知识 , 它 显 性 地 
以 结构 化 的 方式 存在 于 网 页 中 的 ,如 用 户 资料 ,标签 或 评分 等 ;第 三 类 知识 是 衍生 知识 ,是 
指 对 收集 到 的 数据 进行 挖掘 得 到 的 知识 ,是 隐 性 知识 和 显 性 知识 衍生 出 来 的 知识 ,如 
图 11-2 所 示 。 









衍生 知识 : 搜索 、 
聚 类 和 文本 挖掘 





隐 性 知识 : 留言 、 
社区 、 日 志和 博文 





显 性 知识 : 标签 、 
评分 和 用 户 资料 


图 11-2 Web 数据 挖掘 知识 分 类 


1， 隐 性 知识 


隐 性 知识 是 以 非 结构 化 的 形式 隐藏 在 站 点 中 或 站 点 外 的 知识 , 它 一 般 包括 博文 、 社 
区 ,论坛 .访问 日 志和 留言 板 等 内 容 。 隐 性 知识 的 非 结构 特 性 决定 了 其 一 般 不 能 被 直接 使 
用 ,需要 事先 对 其 进行 相应 的 数据 预 处 理 才 能 做 进一步 的 深度 数据 挖掘 。 


2. 显 性 知识 


显 性 知识 一 般 是 用 户 直接 传递 给 站 点 的 结构 化 的 知识 ,一 般 包 括 评论 评分、 投票 , 标 
签 , 推 荐 和 用 户 资料 等 内 容 。 这 些 数 据 的 结构 化 特性 方便 了 网 站 研究 人 员 的 进一步 分 析 
处 理 ,一 般 只 要 对 其 做 些 相 应 的 数据 收集 和 整理 工作 就 可 以 作为 后 续 深 度数 据 挖掘 的 
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材料 。 
3. 衍生 知识 


衍生 知识 一 般 是 对 隐 性 知识 和 显 性 知识 进行 进一步 深度 数据 挖掘 的 成 果 , 它 处 于 
数据 挖 气 “金字塔” 的 顶端 部 位 ,一 般 包括 聚 类 、 预 测 分 析 、 智 能 搜索 ,文本 挖掘、 推荐 引 
擎 和 发 现 模式 等 内 容 。 衍 生 知 识 是 数据 挖掘 过 程 的 最 终结 果 , 体 现 着 数据 挖 气 得 到 的 
智慧 ,研究 人 员 一 般 都 会 对 衍生 知识 做 进一步 的 可 视 化 处 理 , 然 后 对 其 进行 相应 的 知 
识 部 署 ,提出 相应 的 应 用 建议 ,并 将 知识 部 署 到 能 解决 现实 问题 的 方案 中 ,完成 对 知识 
的 最 终 利用 。 


11.1.5 Web 数据 挖掘 的 关键 问题 


Web 数据 挖掘 就 是 传统 数据 挖掘 技术 在 互联 网 中 的 具体 应 用 。 传 统 数据 挖掘 技术 
面向 的 是 有 组 织 . 有 结构 的 数据 库 中 的 数据 ,而 Web 数据 挖掘 技术 面向 的 是 庞大 的 、 分 布 
广泛 的 互联 网 络 信息 服务 系统 。 对 于 这 个 特殊 的 领域 ,具有 很 多 其 他 领域 所 不 具有 的 特 
点 ,在 进行 Web 数据 挖掘 的 时 候 , 遇 到 了 大 量 的 实际 问题 和 挑战 ,主要 包含 以 下 几 个 
方面 : 


1. 网 页 的 动态 性 


互联 网 是 一 个 实时 不 断 更 新 的 ,动态 变化 的 信息 服务 系统 ,特别 是 在 Web 2.0 时 代 
的 互联 网 ,网 络 信息 是 在 用 户 的 交互 访问 中 生成 的 。 这 就 意味 着 我 们 在 做 Web 数据 挖掘 
的 时 候 , 目标 数据 是 时 刻 更 新 变换 的 。 如 何 保证 Web 数据 挖掘 的 结果 是 最 新 的 且 符 合 实 
时 性 的 需求 ,值得 我 们 考虑 和 研究 。 


2. 提取 用 户 真正 感 兴趣 的 信息 


互联 网 上 的 信息 是 海量 的 ,但 是 用 户 感 兴趣 的 内 容 又 是 有 限 的 ,这 就 意味 着 绝 大 多 数 
的 网 页 内 容 对 用 户 来 说 是 没有 吸引 力 的 。 如 何 规避 网 页 上 用 户 不 感 兴趣 的 内 容 , 而 将 用 
户 感 兴趣 的 内 容 呈 现在 用 户 面前 ,是 Web 数据 挖掘 要 解决 的 主要 问题 之 一 ,特别 是 对 于 
搜索 引擎 这 样 的 信息 服务 检索 系统 ,信息 的 抽取 显得 尤为 重要 。 


3. 面 对 广 泛 的 用 户 群 


Web 数据 挖掘 所 面 对 的 是 形形色色 的 用 户 群 ,他 们 的 兴趣 .身份 背景 ,年 龄 层次 、 知 
识 结构 ` 上 网 目的 千差万别 。 如 何 正 确 而 合理 地 对 用 户 进行 聚 类 和 分 类 ,并 给 不 同 的 用 户 
群体 提供 不 同 的 服务 ,达到 互联 网 服务 用 户 满意 度 的 最 大 化 ,是 Web 数据 挖掘 的 核心 
问题 。 


3. Web 网 页 文档 结构 复杂 
Web 网 页 文档 并 没有 统一 的 结构 ,它们 是 由 风格 各 异 、 排 版 各 不 相同 的 内 容 组 成 的 。 
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这 就 像 是 在 一 个 没有 任何 索引 分 类 的 混乱 的 大 型 图 书馆 中 要 收集 整理 某 一 部 分 图 书 , 难 
度 可 想 而 知 ,所 以 这 对 Web 数据 挖掘 过 程 中 的 数据 收集 技术 和 数据 预 处 理 技术 提出 了 更 
高 的 要 求 。 


5. 海量 的 数据 源 


互联 网 中 的 信息 是 以 GB 为 单位 来 计算 的 ,并 且 随 时 都 在 不 断 地 增长 ,对 于 如 此 大 的 
信息 量 ,不 可 能 用 一 个 数据 仓库 来 存储 ,这 对 Web 数据 挖掘 的 挖掘 算法 和 系统 提出 了 更 
高 的 要 求 。 


11.2 空间 数据 挖掘 


空间 数据 是 人 们 借以 认识 自然 和 改造 自然 的 重要 数据 。 空 间 数 据 库 含有 空间 数据 和 
非 空间 数据 ,空间 数据 可 以 是 地 表 在 地 理 信息 系统 (Geography Information System, GIS) 
中 的 二 维 投影 ,也 可 以 是 分 子 生 物 学 中 的 蛋白 质 分 子 结构 等 ; 非 空间 数据 则 是 除 空间 数据 
以 外 的 一 切 数据 。 所 以 ,也 可 以 认为 空间 数据 库 是 通用 的 数据 库 , 其 他 数据 库 是 空间 数据 
库 的 特殊 形态 。 

由 于 雷达 ,红外 ,光电 卫星、 电视 摄像 .电子 显 微 成 像 .CT 成 像 等 各 种 宏观 与 微观 传 
感 器 的 使 用 ,空间 数据 的 数量 、 大 小 和 复杂 性 都 在 飞快 地 增长 ,已 经 远 远 超出 了 人 的 解 译 
能 力 ,终端 用 户 不 可 能 详细 地 分 析 所 有 这 些 数据 ,并 提取 感 兴趣 的 空间 知识 。 因 此 ,利用 
空间 数据 挖掘 和 知识 发 现 (Spatial Data Mining and Knowledge Discovery，SDMKD) 从 
空间 数据 库 中 自动 或 半自动 地 挖掘 隐藏 在 空间 数据 库 中 的 不 明确 的 、 隐 含 的 知识 , 变 得 越 
来 越 重 要 。 


11.2.1 空间 数据 挖掘 的 定义 与 特点 


空间 数据 挖掘 (Spatial Data Mining) ,也 称 基 于 空间 数据 库 的 数据 挖掘 ,作为 数据 挖 
掘 的 一 个 新 的 分 支 ,是 在 空间 数据 库 的 基础 上 ,综合 利用 统计 学 方法 、 模 式 识别 技术 .人 工 
智能 方法 、 神 经 网 络 技术 、 粗 糙 集 、 模 糊 数学 .机 器 学 习 、 专 家 系统 等 技术 和 方法 ,从 大 量 的 
空间 数据 (例如 生产 数据 ,管理 数据 ,经 营 数据 或 遥感 数据 ) 中 分 析 获 取 人 们 可 信 的 、 新 颖 
的 、 感 兴趣 的 、 隐 藏 的 .事先 未 知 的 、 潜 在 有 用 的 和 最 终 可 理解 的 知识 。 简 单 地 讲 , 空 间 数 
据 挖 掘 是 指 从 空间 数据 库 中 提取 隐 含 的 .用户 感 兴趣 的 空间 和 非 空间 模式 .普遍 特征 、 规 
则 和 知识 的 过 程 。 由 于 空间 数据 的 复杂 性 ,空间 数据 挖掘 不 同 于 一 般 的 事务 数据 挖掘, 它 
有 以 下 一 些 特点 : 

(1) 数据 源 十 分 丰富 ,数据 量 非常 庞大 ,数据 类 型 多 , 存 取 方法 复杂 ; 

(2) 涉及 领域 十 分 广泛 , 凡 与 空间 位 置 相关 的 数据 ,都 可 对 其 进行 挖掘 ; 

(3) 挖掘 方法 和 算法 非常 多 ,而 且 大 多 数 算法 比较 复杂 ,难度 大 ; 

(4) 知识 的 表达 方式 多 样 ,对 知识 的 理解 和 评价 依赖 于 人 对 客观 世界 的 认 知 程度 。 
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11.2.2 空间 数据 挖掘 的 体系 结构 


空间 数据 挖掘 系统 可 以 分 为 三 层 结 构 , 如 图 11-3 所 示 。 
用 户 界面 人 机 交互 系统 


1 
空间 数 系统 发 现 的 知识 
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与 问题 相关 的 





数据 源 





知识 运用 
(如 空间 决策 支持 ) 











空间 数据 库 管 理 系统 


空间 数据 立方 体 


图 11-3 空间 数据 挖掘 的 体系 结构 














第 一 层 是 数据 源 , 指 利用 空间 数据 库 或 数据 仓库 管理 系统 提供 的 索引 查询 优化 等 功 
能 获取 和 提炼 与 问题 领域 相关 的 数据 ,或 直接 利用 存储 在 空间 数据 立方 体 中 的 数据 ,这 些 
数据 可 称 为 数据 挖掘 的 数据 源 或 信息 库 。 在 这 个 过 程 中 ,用 户 直接 通过 空间 数据 库 ( 数 据 
仓库 ) 管 理工 具 交 互 地 选取 与 任务 相关 的 数据 ,并 将 查询 和 检索 的 结果 进行 必要 的 可 视 化 
分 析 , 多 次 反复 ,提炼 出 与 问题 领域 有 关 的 数据 ,或 通过 空间 数据 立方 体 的 聚集 ` 上 钻 、 下 
翻 . 切 块 . 旋 转 等 分 析 操作 ,抽取 与 问题 领域 有 关 的 数据 ,然后 再 开始 进行 数据 挖掘 和 知识 
发 现 过 程 。 

第 二 层 是 挖掘 器 ,利用 空间 数据 挖掘 系统 中 的 各 种 数据 挖掘 方法 分 析 被 提取 的 数据 ， 
一 般 采 用 交互 方式 ,由 用 户 根据 问题 的 类 型 以 及 数据 的 类 型 和 规模 ,选用 合适 的 数据 挖掘 
方法 ,但 对 于 某 些 特定 的 专门 的 数据 挖掘 系统 ,可 采用 系统 自动 地 选用 挖掘 方法 的 方式 。 

第 三 层 是 用 户 界面 ,使 用 多 种 方式 (如 可 视 化 工具 ) 将 获取 的 信息 和 发 现 的 知识 以 便 
于 用 户 理解 和 观察 的 方式 反映 给 用 户 , 用 户 对 发 现 的 知识 进行 分 析 和 评价 ,并 将 知识 提供 
给 空间 决策 支持 使 用 ,或 将 有 用 的 知识 存 人 领域 知识 库 内 ,在 整个 数据 挖掘 过 程 中 ,用 户 
能 够 控制 每 一 步 。 

一 般 来 说 ,数据 挖掘 和 知识 发 现 的 多 个 步骤 相互 连接 ,需要 反复 进行 人 机 交互 ,才能 
得 到 最 终 满意 的 结果 。 显 然 ,在 整个 数据 挖掘 过 程 中 ,良好 的 人 机 交互 用 户 界面 是 顺利 进 
行 数据 挖掘 并 取得 满意 结果 的 基础 。 





领域 知识 库 





11.2.3 空间 数据 挖掘 可 获得 的 知识 类 型 


作为 空间 数据 挖掘 的 主要 研究 内 容 ,我 们 首先 要 明确 从 空间 数据 库 中 可 以 发 现 哪些 
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知识 。 尽 管 数 据 挖 气 中 常见 的 广义 知识 、 关 联 知识 、 分 类 知识 、 聚 类 知识 和 预测 型 知识 5 
类 知识 同样 可 以 概括 从 空间 数据 库 发 现 的 知识 ,但 我 们 从 应 用 的 角度 将 知识 类 型 划分 得 
更 加 具体 ,使 其 更 便于 理解 和 应 用 。 由 于 GIS 数据 库 是 空间 数据 库 的 主要 类 型 , 且 可 以 
包含 遥感 图 像 数据 ,所 以 我 们 将 GIS 数据 库 与 空间 数据 库 等 同 起 来 ,并 认为 从 GIS 数据 
库 中 发 现 知识 (Knowledge Discovery from GIS Databases) 与 SDMKD 有 相同 的 内 涵 。 
空间 数据 挖掘 所 能 发 现 的 知识 类 型 主要 包括 以 下 几 种 。 





1. 普遍 的 几何 知识 (General Geometric Knowledge) 


普遍 的 几何 知识 是 指 某 类 目标 的 数量 ,大 小 ,形态 特征 等 的 普遍 的 几何 特征 。 我 们 既 
可 以 计算 和 统计 出 空间 目标 几何 特征 量 的 最 小 值 .最 大 值 ,均值 方差 等 信息 ,还 可 以 统计 
出 特征 量 的 直方 图 。 在 足够 样本 的 情况 下 ,直方 图 数据 可 转换 为 先 验 概率 使 用 ,在 此 基础 
上 ,可 根据 背景 知识 归纳 出 高 水 平 的 普 适 几何 知识 。 


2. 空间 特征 规则 (Spatial Characteristic Rules) 


空间 特征 规则 是 指 对 某 一 类 或 几 类 空间 目标 的 几何 和 属性 的 普遍 特性 的 描述 , 即 对 
共性 的 描述 。 空 间 几何 特征 是 指 目标 的 位 置 .形态 特征 ,走向 ,连通 性 ` 坡 度 等 普遍 的 特 
征 ,空间 属性 特征 指 目标 的 数量 ,大 小 ,面积 \ 周 长 ,名 称 等 定量 或 定性 的 非 几何 特性 ,这 类 
规则 是 最 基本 的 ,也 是 发 现 其 他 类 型 知识 的 基础 。 


3. 空间 聚 类 规则 (Spatial Clustering Rules) 


空间 聚 类 规则 是 指 根据 空间 目标 特征 的 聚 散 程度 将 它们 划分 到 不 同 的 组 中 ,组 与 组 
之 间 的 差别 尽 可 能 大 ,组 内 的 差别 尽 可 能 小 ,可 用 于 空间 目标 信息 的 概括 和 综合 ,如 根据 
距离 将 大 量 散 布 的 居民 点 聚 类 成 几 个 居民 区 。 在 地 震 地 区 监测 中 ,通过 对 不 同 的 空间 对 
象 进行 聚 类 ,发现 地 震 损害 的 分 布 规律 。 


4. 空间 分 类 规则 (Spatial Classification Rules) 


空间 分 类 规则 是 指 根据 目标 的 空间 或 非 空间 特征 ,利用 分 类 分 析 将 目标 划分 为 不 同 
类 别 的 规则 。 空 间 分 类 和 空间 聚 类 的 区 别 在 于 分 类 事先 知道 类 别 数 和 各 类 的 典型 特征 而 
聚 类 则 事先 不 知道 , 即 分 类 是 有 导师 的 (Supervised) 而 聚 类 是 无 导师 的 (Unsupervised) 。 


5. 空间 区 分 规则 (Spatial Discriminate Rules) 


空间 区 分 规则 是 指 两 类 或 几 类 空间 目标 之 间 几 何 的 或 属性 的 不 同 特性 , 即 可 以 区 分 
不 同类 目标 的 特征 ,是 对 个 性 的 描述 。 空 间 分 类 规则 与 空间 区 分 规则 有 所 不 同 : 分 类 规 
则 对 空间 对 象 进行 明确 分 类 ,强调 的 是 分 类 精度 ,规则 的 后 件 是 类 别 , 为 了 保证 分 类 精度 ， 
一 般 在 较 低 的 概念 层次 进行 分 类 ;而 区 分 规则 是 对 已 知 类 别 的 对 象 的 对 比 ,规则 的 前 件 是 
类 别 , 一 般 是 在 较 高 概念 层次 上 的 描述 。 
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6. 空间 分 布 规律 (Spatial Distribution Rules) 


空间 分 布 规律 是 指 地 理 目标 (现象 ) 在 地 理 空 间 的 分 布 规律 。 分 为 在 水 平方 向 、 垂 直 
方向 ,水 平和 垂直 方向 的 联合 分 布 规律 以 及 其 他 分 布 规律 。 水 平方 向 分 布 指 地 物 (现象 ) 
在 水 平 区 域 的 分 布 规律 ,如 不 同 区 域 农作物 的 差异 ;垂直 方向 分 布 即 地 物 沿 高 程 带 的 分 
布 , 如 高 山 植被 沿 坡度 , 坡 向 分 布 规律 。 另 外 ,许多 现象 在 空间 都 具有 复杂 的 分 布 特征 , 它 
们 常常 呈现 为 不 规则 的 曲面 。 想 要 研究 这 些 现象 的 空间 分 布 趋势 ,首先 要 用 适当 的 数学 
模型 将 现象 的 空间 分 布 及 其 区 域 变化 趋势 模拟 出 来 ,如 公用 设施 的 城乡 差异 .异域 地 物 的 
坡度 、 坡 向 分 布 等 规律 。 


7. 空间 关联 规则 (Spatial Association Rules) 





在 自然 和 人 文 界 中 ,各 种 地 理 要 素 (现象 ) 的 分 布 并 不 是 孤立 的 ,它们 相互 影响 ,相互 
制约 ,彼此 之 间 存 在 着 一 定 的 联系 。 空 间 关联 规则 ,主要 是 指 空间 目标 之 间 相 离 、 相 邻 、 相 
连 ,共生 ,包含 .被 包含 .覆盖 、 被 覆盖 、 交 短 等 规则 ,也 可 称 为 空间 相关 关系 。 例 如 ,居民 地 
(城镇 ) 与 道路 相连 ,道路 与 河流 的 交叉 口 是 桥 梁 。 空 间 关联 规则 的 形式 有 多 种 ,目前 最 党 
见 的 一 种 空间 关联 规则 形 如 A=>B[s%,c%], 其 中 A 和 B 是 空间 和 非 空 间 谓词 的 集合 ， 
5s% 表 示 规 则 的 支持 度 ,c% 表 示 规则 的 置信 和 度 。 


8. 空间 演变 规律 (Spatial Evolution Rules) 


如 果 空 间 数 据 库 ( 数 据 仓库 ) 中 存 有 同一 地 区 不 同时 期 数据 的 快照 (Snapshot) ,将 这 
些 不 同时 间 的 数据 进行 挖掘 处 理 , 就 可 以 发 现 地 理 要 素 (现象 ) 随 时 间 动 态 发 展 的 规律 , 即 
目标 的 空间 演变 规律 。 换 言 之 ,空间 演变 规律 是 指 空 间 目 标 随时 间 变化 的 规则 ,如 哪些 地 
区 易 变 ,哪些 地 区 不 易 变 ,哪些 目标 易 变 ,怎么 变 , 哪 些 目 标 固 定 不 变 等 ,人 们 可 以 利用 这 
些 规律 进行 预测 预报 。 

这 些 知识 和 规则 从 信息 内 涵 上 讲 是 有 区 别 的 ,但 从 形式 上 讲 又 是 密切 联系 的 对 于 
空间 分 布 的 图 形 描述 既 传递 了 空间 分 布 信息 ,又 传递 了 空间 趋势 和 空间 对 比 信息 。 如 从 
中 国人 口 分 布 图 上 ,我 们 既 可 以 了 解 人 口 分 布 情况 ,又 可 以 感受 人 口 分 布 的 基本 趋势 , 同 
时 ,各 区 域 之 间 的 人 口 密度 对 比 也 反映 得 一 清二 楚 。 这 些 不 同类 型 的 知识 之 间 不 是 相互 
孤立 的 ,在 解决 实际 问题 时 ,经 常 要 同时 使 用 多 种 规则 。 








11.2.4 空间 数据 挖掘 的 方法 


空间 数据 挖掘 的 方法 并 不 是 某 一 种 具体 的 全 新 的 方法 , 它 的 许多 方法 在 地 理 信 息 系 
统 、 地 理 空间 认 知 ,地 图 数据 处 理 、 地 学 数据 分 析 等 领域 内 早已 广泛 应 用 。 可 以 说 空间 数 
据 挖 掘 是 多 学 科 和 多 种 技术 交叉 融合 的 新 兴 边 缘 学 科 , 汇 集 了 人 工 智能 、 专 家 系统 、 机 器 
学 习 \ 数 据 库 和 统计 学 等 学 科 的 成 果 , 因 而 数据 挖掘 的 方法 是 丰富 多 彩 的 。 针 对 空间 数据 
库 的 特点 ,空间 数据 挖掘 的 方法 主要 有 以 下 几 种 。 





212 











数据 挖 气 的 发 展 


1. 统计 分 析 方 法 (Statistical Analysis Approach) 


统计 方法 一 直 是 分 析 空 间 数 据 的 常用 方法 ,有 着 较 强 的 理论 基础 ,拥有 大 量 的 算法 ， 
可 有 效 地 处 理 数值 型 数据 。 这 类 方法 有 时 需要 数据 满足 统计 不 相关 的 假设 ,但 很 多 情况 
下 这 种 假设 在 空间 数据 库 中 难以 满足 ,另外 ,统计 方法 难以 处 理 字符 型 数据 。 应 用 统计 方 
法 需要 有 领域 知识 和 统计 知识 ,一 般 由 具有 统计 经 验 的 领域 专家 来 完成 。 

以 变 差 函数 (Variogram) 和 Kriging 方法 为 代表 的 地 学 统计 (Geostatistics) 方 法 是 地 
学 领域 特有 的 统计 分 析 方 法 ,由 于 考虑 了 空间 数据 的 相关 性 ,地 学 统计 在 空间 数据 统计 和 
预测 方面 比 传统 统计 学 方法 更 加 合理 有 效 , 因 而 在 空间 数据 挖掘 中 也 可 以 充分 发 挥 作用 。 


2. 空间 分 析 方 法 (Spatial Analysis Approach) 


空间 分 析 方 法 是 GIS 的 关键 技术 ,是 GIS 系统 区 别 于 一 般 数 字 制 图 系统 的 主要 标志 
之 一 。 目 前 常用 的 GIS 系统 的 空间 分 析 功 能 有 综合 属性 数据 分 析 、 拓 扑 分 析 、 缓 冲 区 分 
析 、 密 度 分 析 、 距 离 分析 ` 稚 置 分 析 、 网 络 分 析 、 地 形 分 析 , 趋 势 面 分 析 ,预测 分 析 等 ,应 用 这 
些 方法 可 以 交互 式 地 发 现 目标 在 空间 上 的 相连 、 相 邻 和 共生 等 关联 关系 以 及 目标 之 间 的 
最 短路 径 、 最 优 路 径 等 辅助 决策 的 知识 。 空 间 分 析 往 往 是 应 用 领域 知识 产生 新 的 空间 数 
据 , 所 以 常 作 为 预 处 理 和 特征 提取 方法 与 其 他 数据 发 气 方 法 结合 起 来 从 空间 数据 库 发 现 
知识 。 


3. 归纳 学 习 方 法 (Induction Learning Approach) 


归纳 学 习 方 法 是 从 大 量 的 经 验 数据 中 归纳 抽取 出 一 般 的 规则 和 模式 ,其 大 部 分 算法 
来 源 于 机 器 学 习 领 域 , 其 中 最 著名 的 是 Quinlan 提出 的 C4. 5 算法 。C4. 5 是 一 种 决策 树 
算法 ,由 ID3 算法 发 展 而 来 ,采用 炉 来 选择 属性 ,分 类 速度 快 ,适合 于 大 数据 库 的 学 习 , 而 
C4. 5 在 ID3 的 基础 上 增加 了 将 决策 树 转 换 为 等 价 的 产生 式 规则 的 功能 ,并 解决 了 连续 取 
值 数据 的 学 习 问 题 。 韩 家 炜 (Han Jiawei) 教 授 等 提出 了 一 种 面向 属性 的 归纳 方法 
(Attribute Oriented Induction, AOD ,专门 用 于 从 数据 库 中 发 现 知识 ,通过 概念 树 的 提升 
对 数据 进行 概括 和 综合 ,归纳 出 高 层次 的 模式 或 特征 。 裴 健 等 对 面向 属性 的 归纳 方法 进 
行 了 扩展 ,形成 了 基于 空间 属性 的 归纳 方法 (Spatial Attribute Oriented Induction， 
SAOI), 


4. 关联 规则 挖掘 方法 (Spatial Association Rule Mining Approach) 


挖掘 关联 规则 首先 由 Agrawal 等 提出 ,主要 是 从 超级 市 场 销售 事务 数据 库 中 发 现 顾 
客 购买 多 种 商品 的 搭配 规律 。 最 著名 的 关联 规则 挖掘 算法 是 Agrawal 提出 的 Apriori 算 
法 ,其 主要 思路 是 统计 多 种 商品 在 一 次 购买 中 共同 出 现 的 频数 ,然后 将 出 现 频数 多 的 搭配 
转换 为 关联 规则 。Agrawal 等 人 还 提出 了 AIS, AprioriTid Cumulate 和 Stratify 等 算法 ， 
Houtsma 等 人 提出 SETM 算法 ,Park 等 人 提出 了 DHP 算法 , 韩 家 炜 等 人 在 面向 属性 归 
纳 (Attribute Oriented Induction) 的 基础 上 .提出 了 多 层次 关联 规则 的 挖掘 算法 ML 
T2L1 等 , 先 求 出 高 概括 层 的 频繁 模式 (Frequent Itemset) ,逐渐 具体 化 ,挖掘 低 概 括 层 的 
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频繁 模式 ,最 后 由 频繁 模式 求解 关联 规则 。 为 提高 挖掘 的 效率 ,AprioriTid 算法 在 事务 
中 记录 支持 的 模式 : ML_T2L1 算法 也 采用 了 类 似 AprioriTid 算法 的 结构 ,在 事务 中 记 
录 支 持 的 概括 层 的 模式 ,减少 了 宛 余 匹 配 和 对 事务 数据 的 访问 。 空 间 数据 库 同 事务 型 数 
据 库 一 样 ,也 可 进行 空间 关联 规则 的 挖掘 。K. Koperski 提出 了 一 种 逐步 求 精 的 空间 关联 
规则 挖掘 算法 。 


5. 聚 类 方法 (Clustering Approach) 


聚 类 是 指 按 一 定 的 距离 或 相似 性 系数 将 数据 分 成 一 系列 相互 区 分 的 组 。 常 用 的 经 典 
聚 类 方法 有 -means ,.K-medoids ISODAIA 等 。 在 空间 数据 挖掘 中 ,R. Ng 等 人 提出 了 
基于 面向 大 数据 集 的 CLARANS 算法 ,Ester M 提出 了 DBSCAN 算法 , 周 成 虎 等 将 信息 
焙 的 概念 引入 SDM 中 ,提出 了 基于 信息 炉 的 时 空 一 体 化 的 地 学 数据 分 割 聚 类 模型 等 。 


6. 分 类 方法 (Classification Approach) 


分 类 就 是 假定 数据 库 中 的 每 个 对 象 (在 关系 数据 库 中 对 象 是 元 组 ) 属 于 一 个 预先 给 定 
的 类 ,从 而 将 数据 库 中 的 数据 分 配 到 给 定 的 类 中 。 研 究 者 根据 统计 学 和 机 器 学 习 提出 了 
很 多 分 类 算法 。 大 多 数 分 类 算法 用 的 是 决策 树 方法 , 它 用 一 种 自 上 而 下 分 而 治之 的 策略 
将 给 定 的 对 象 分 配 到 小 数据 集中 ,在 这 些小 数据 集中 , 叶 节 点 通常 只 连 着 一 个 类 。 许 多 研 
究 者 研究 了 空间 数据 的 分 类 问题 。Fayyad 等 人 用 决策 树 方法 对 恒星 的 影像 数据 进行 了 
分 类 ,总 共有 3TB 的 栅 格 数据 。 训 练 数据 集 由 天 文学 家 进行 分 类 ,在 此 基础 上 建立 了 用 
于 决策 树 分 类 的 10 个 训练 数据 集 , 接 着 用 决策 树 进行 分 类 ,发 现 模式 ,这 个 方法 不 适合 
GIS 中 的 矢量 数据 。Ester 等 人 利用 邻近 图 提出 了 空间 数据 的 分 类 方法 ,该 方法 是 基于 
ID3 而 来 的 , 它 不 但 考虑 了 分 类 对 象 的 非 空 间 属性 ,而 且 考 虑 了 邻近 对 象 的 非 空间 属性 。 
K. Koperski 等 人 用 决策 树 进行 空间 数据 分 类 ,接着 分 析 了 空间 对 象 的 分 类 问题 和 数据 库 
中 空间 对 象 之 间 的 关系 ,最 后 提出 了 一 个 能 处 理 大 量 不 相关 的 空间 关系 的 算法 ,并 针对 假 
设 和 真实 数据 进行 了 空间 数据 分 类 实验 。 

分 类 和 聚 类 都 是 对 目标 进行 空间 划分 ,划分 的 标准 是 类 内 差别 最 小 而 类 间 差 别 最 大 ， 
分 类 和 聚 类 的 区 别 在 于 分 类 事先 知道 类 别 数 和 各 类 的 典型 特征 ,而 聚 类 则 事先 不 知道 。 


7. 粗糙 集 方法 (Rough Sets) 


粗糙 集 理论 是 被 广泛 应 用 于 处 理 不 精确 、 不 确定 和 不 完全 的 信息 分 类 分 析 和 知识 获 
取 的 一 种 智能 数据 决策 分 析 工 具 。 粗 糙 集 从 集合 论 的 观点 出 发 ,在 给 定论 域 中 以 知识 足 
够 与 否 作为 实体 分 类 的 标准 ,并 给 出 划分 类 型 的 精度 。 上 近似 集中 的 实体 具有 足够 必要 
的 信息 和 知识 ,确定 属于 该 类 别 ; 论 域 全 集 以 内 且 下 近似 集 以 外 的 实体 没有 必要 的 信息 和 
知识 ,确定 不 属于 该 类 别 ; 上 近似 集 和 下 近似 集 的 差 集 为 类 别 的 不 确定 边界 ,其 中 的 实体 
没有 足够 必要 的 信息 和 知识 ,无 法 确切 地 判断 是 否 属 于 该 类 别 , 为 类 别 的 边界 。 若 两 个 实 
体 有 完全 相同 的 信息 , 则 它们 为 等 价 关系 ,不 可 区 分 。 根 据 利 用 统计 信息 与 否 , 现 存 的 粗 
糙 集 模型 及 其 延伸 可 以 分 为 代数 型 和 概率 型 两 大 类 。 粗 糙 集 的 基本 单位 为 等 价 类 ,类 似 
于 栅 格 数据 的 栅 格 .矢量 数据 的 点 或 影像 的 像素 。 等 价 类 划分 越 细 , 粗 糙 集 描述 实体 就 越 
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精确 ,但 存储 空间 和 计算 时 间 也 越 大 。 
8. Zi (Cloud Theory) 


云 理论 是 用 于 处 理 不 确定 性 的 一 种 新 理论 ,由 云 模 型 (Cloud Model)、 虚 拟 云 
(Virtual Cloud) ` 云 运算 (Cloud Operation) \ 云 变换 (Cloud Transform) 和 不 确定 性 推理 
(Reasoning under Uncertainty) 等 主要 内 容 构成 。 云 模型 将 模糊 性 和 随机 性 结合 起 来 , 解 
决 了 作为 模糊 集 理论 基石 的 隶属 函数 概念 的 固有 缺陷 ,为 DMKD 中 定量 与 定性 相 结合 
的 处 理 方法 黄 定 了 基础 ;虚拟 云 和 云 变 换 用 于 概念 层次 结构 生成 和 概念 提升 , 云 推理 用 于 
不 确定 性 预测 等 。 云 理论 在 知识 表达 、 知 识 发 现 、 知 识 应 用 等 方面 都 可 以 得 到 充分 的 应 
用 。 另 外 ,神经 网 络 (Neural Network)、 证 据 理 论 (Evidence Theory)、 模 糊 集 (Fuzzy 
Sets) 理 论 .遗传 算法 (Genetic Algorithms) 等 也 可 用 于 空间 数据 发 掘 和 知识 发 现 。 


11.3 流 数据 挖掘 


传统 的 数据 管理 系统 ,只 能 用 于 处 理 永久 的 数据 和 进行 瞬时 的 查询 ,早已 不 能 满足 这 
个 信息 时 代 对 于 数据 库 技术 的 要 求 了 。 随 着 计算 机 硬件 ,网 络 通信 等 技术 的 飞速 发 展 , 产 
生 了 一 种 新 型 的 数据 类 型 , 即 流 数据 。 与 传统 的 数据 管理 系统 相 比 , 流 数据 具有 一 系列 的 
优越 性 ,使 得 对 流 数 据 进行 数据 挖掘 非常 重要 和 必要 了 。 近 年 来 , 流 数据 挖掘 技术 已 发 展 
成 为 现代 数据 库 技 术 研 究 的 一 个 重要 方向 ,引起 了 众多 科研 学 者 的 关注 和 进一步 研究 。 





11.3.1 流 数 据 的 特点 


流 数据 是 一 个 没有 界限 的 数据 序列 ,数据 产生 的 速度 非常 快 。 它 在 任何 时 刻 都 有 大 
量 的 数据 产生 ,数据 产生 速度 之 快 以 至 于 数据 挖掘 的 速度 赶不上 产生 的 速度 , 且 这 些 数据 
的 产生 可 以 认为 是 没有 休止 的 。 总 的 来 讲 ,一 个 流 数据 是 连续 、 有 序 、 实 时 无 限 的 元 组 序 
列 , 与 传统 的 数据 集 相 比 , 流 数 据 具 有 以 下 一 些 主要 特点 : 数据 连续 不 断 到 达 。 数 据 量 
非常 大 ,存储 所 有 数据 的 代价 是 极 大 的 。@@ 有 序 性 、 实 时 性 。 流 数据 中 的 元 组 按时 间 有 序 
地 到 达 并 实时 地 变化 , 且 变 化 的 速率 是 无 法 控制 的 。@@ 概 要 性 。 处 理 流 数据 时 ,要 求 构造 
概要 数据 结构 。 团 近似 性 。 也 就 是 说 , 流 数据 查询 以 及 挖掘 处 理 得 到 的 结果 是 近似 的 。 
@@ 单 遍 处 理性 。 由 于 内 存 的 限制 ,只 能 对 流 数据 进行 单 遍 扫描 ,而 且 数据 一 经 处 理 ,就 不 
能 被 再 次 取出 处 理 。@ 即 时 性 。 用 户 要 求 得 到 即时 的 处 理 结果 。 可 以 说 , 流 数据 的 这 些 
特殊 性 为 基于 流 数据 的 数据 挖掘 关键 技术 及 其 应 用 带 来 了 新 的 机 遇 和 挑战 ,具有 非常 重 
要 的 现实 意义 。 














11.3.2 流 数 据 挖掘 关键 技术 


就 现 阶段 来 看 , 流 数据 挖掘 技术 已 成 为 数据 挖掘 领域 的 一 个 新 的 研究 方向 。 对 于 流 
数据 挖掘 技术 来 说 ,为 了 有 效 地 挖掘 出 流 数据 中 潜在 的 知识 ,就 必须 对 其 进行 更 加 深入 的 
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研究 ,下 面 给 出 了 流 数 据 挖掘 的 四 个 关键 技术 。 
1. 流 数 据 频繁 模式 挖掘 技术 


流 数据 频繁 模式 挖掘 任务 主要 是 在 有 限 的 计算 和 存储 资源 条 件 下 , 流 数据 通过 近似 
算法 的 模式 进行 计数 ,可 以 支持 这 种 满足 几 个 条 件 频 繁 模式 的 频率 。 依 据 挖 掘 结果 的 完 
整 性 ,挖掘 问题 可 分 为 4 种 类 型 : 最 大 频繁 项 集 挖掘 、 闭 频繁 项 集 挖掘 .完全 频繁 项 集 控 
掘 以 及 Top-k 频繁 项 集 挖掘 ;依据 相对 误差 计数 的 频率 范围 内 的 随机 挖掘 算法 可 以 分 为 
两 种 类 型 : 基于 概率 的 近似 算法 和 确定 误差 区 间 的 近似 算法 。 总 的 来 说 ,在 流 数据 频繁 
模式 挖掘 方面 ,可 以 利用 流 数 据 的 时 效 性 和 流 中 心 的 偏 移 性 特征 ,使 界 标 窗口 与 时 间 误 减 
这 两 种 模型 有 效 结 合 。 这 种 频繁 模式 挖掘 技术 主要 是 通过 一 个 动态 体系 来 形成 整体 模式 
支持 数 ,再 按照 时 间 衰 减 模型 对 每 个 模式 支持 数 进行 合理 统计 ,从 而 计算 出 界 标 窗口 内 模 
式 的 频繁 程度 。 该 算法 挖掘 精度 高 ,内 存 开销 小 ,对 于 高 速 流 数据 处 理 要 求 也 能 够 有 效 满 
足 , 并 能 适应 不 同 数量 的 交易 、 不 同 的 服务 和 不 同 的 最 大 潜在 频繁 模式 的 流 数 据 平均 长 度 
的 挖掘 。 


2. 流 数据 相似 性 搜索 技术 


目前 ,在 流 数据 相似 性 搜索 方面 的 研究 仍 不 多 见 。 相 似 性 搜索 可 描述 为 : 在 设置 一 
些 功能 的 基础 上 找到 相似 的 序列 ,并 给 定 一 个 查询 序列 的 子 集 在 序列 集合 的 措施 。 在 一 
般 情况 下 , 流 数据 的 子 序列 相似 性 量度 与 之 相 匹 配 , 在 相似 性 量度 中 ,主要 有 LP 范 数 、 动 
态 扭 曲 距 离 以 及 最 长 公共 子 序列 距离 这 三 种 相似 性 量度 函数 。 其 中 ,LP 范 数 对 时 间 捏 
曲 的 标准 是 很 敏感 的 ,同时 只 限于 相等 长 度 的 序列 之 间 的 比较 ;动态 扭曲 距离 对 局 部 时 间 
位 移 的 处 理 效果 较 佳 ,但 复杂 性 过 高 且 容 易 受 孤立 点 的 干扰 ;而 最 长 公共 子 序列 距离 能 够 
克服 很 多 缺陷 和 不 足 之 处 ,而 且 其 相似 性 搜索 标准 是 最 长 公共 子 序列 的 长 度 。 针 对 流 数 
据 上 难以 建立 索引 结构 的 特征 ,可 以 利用 动态 时 间 扭 曲 距离 函数 ,充分 运用 数学 中 的 分 
段 \ 填 充 元 和 行列 约束 度 等 基本 概念 ,构造 一 组 适应 不 同 场景 的 流 数据 相似 性 量度 函数 及 
其 配套 的 上 下 界 精 化 函数 ,这 样 可 以 得 出 相应 的 流 数据 相似 性 搜索 算法 ,可 以 说 这 种 算法 
在 流 数据 相似 性 搜索 中 的 应 用 前 景 相 当 可 观 。 


3. 流 数据 任意 形状 聚 类 技术 


目前 国内 对 流 数据 聚 类 的 研究 还 比较 少 ,可 以 说 将 会 是 流 数据 挖掘 未 来 研究 的 一 个 
重要 方向 。 流 数据 上 的 任意 形状 聚 类 就 是 通过 单 遍 扫描 流 数据 ,将 低 密度 区 域 与 其 他 能 
相 分 离 (密度 通常 由 对 象 个 数 决定 ) 。 基 于 密度 的 集群 被 认为 是 包含 一 个 相对 高 密度 连通 
区 域 的 一 组 对 象 的 多 维 空间 ,在 同一 群集 的 数据 对 象 且 不 同 簇 之 间 拥 有 一 个 很 高 的 相似 
度 。 最 重要 的 是 ,不 同 的 流 数据 任意 形状 聚 类 算法 是 从 传统 的 数据 聚 类 算法 上 归纳 总 结 
而 来 的 , 流 数据 任意 形状 聚 类 可 以 归纳 在 4 个 主要 的 方面 中 , 即 分 层 方法 .划分 方法 、 基 于 
密度 方法 以 及 基于 网 络 方法 ,并 且 大 部 分 的 流 数据 聚 类 是 基于 这 4 类 算法 的 扩展 。 在 流 
数据 任意 形状 聚 类 方面 ,可 以 利用 流 数据 的 时 效 性 和 概念 漂移 特性 ,使 滑动 窗口 与 时 间 误 
减 这 两 种 模型 有 效 结合 。 在 流 数据 挖掘 关键 技术 中 ,这 种 任意 形状 聚 类 技术 主要 是 通过 
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时 间 训 减 模型 ,用 历史 的 元 组 密度 指数 衰减 ,可 以 说 聚 类 速度 极 快 且 空间 开销 小 ,并 能 适 
应 不 同 的 长 度 、 尺 寸 和 任意 形状 的 流 数 据 的 自然 集群 数量 的 聚 类 。 在 衰变 微 集群 密度 的 
统计 窗口 的 边界 ,描绘 出 滑动 窗口 的 密度 ,可 以 开发 一 个 多 组 织 结构 的 集群 功能 ,有 效 地 
降低 维护 代价 。 但 同时 对 非 凸 形状 聚 类 效果 不 好 ,无 法 发 现任 意 形状 的 聚 类 ,而 且 当 噪声 
数据 增多 时 , 聚 类 质量 也 会 随 之 下 降 , 因 此 在 这 方面 还 需 进一步 去 研究 和 扩展 。 


4。 流 数据 分 类 技术 


流 数据 分 类 技术 是 一 个 非常 重要 的 数据 挖掘 技术 ,其 主要 目的 是 根据 现 有 的 数据 集 
来 构造 一 个 分 类 函数 ,其 分 类 功能 可 以 在 一 个 特定 的 类 别 上 映射 人 新 的 样本 。 实 际 上 , 流 
数据 分 类 拥有 一 个 独立 的 单 扫描 功能 ,通过 流 数据 和 连续 使 用 分 类 功能 的 流 数 据 将 被 映 
射 到 一 个 特定 的 对 象 ,在 一 个 给 定 的 类 别 和 特定 的 频率 中 重新 校正 功能 ,以 消除 旧 样 本 的 
影响 。 对 于 流 数据 分 类 挖掘 技术 ,主要 有 两 个 步骤 : 第 一 步 , 根 据 训练 样本 建立 数据 来 描 
述 和 分 类 类 别 之 间 的 区 分 ;第 二 步 ,建立 一 个 分 类 ,使 用 类 标签 的 测试 数据 预测 一 个 未 知 
的 类 ,并 评估 分 类 精度 。 在 流 数据 分 类 方面 ,基于 核 主 成 分 分 析 算法 ,可 以 针对 增 量 化 求 
解 方法 ,构造 一 种 旨 在 降低 分 类 处 理 量 的 维 数 约 减 算法 。 更 可 以 结合 BP 神经 网 络 构造 
出 相应 的 流 数 据 分 类 算法 。 该 算法 的 时 间 和 空间 复杂 度 低 ,收敛 性 能 稳定 ,分 类 精度 高 ， 
能 够 较 好 地 满足 流 数据 分 类 算法 的 实时 处 理 要 求 ,有 效 地 解决 高 速 数据 挖掘 的 时 间 ,内存 
和 样本 对 流 数 据 的 局 限 性 。 

综 上 所 述 ,从 频繁 项 集 、 相 似 性 搜索 、 聚 类 、 分 类 这 4 个 角度 全 面 研究 流 数据 挖掘 技 
术 , 可 以 说 为 流 数据 挖掘 未 来 的 研究 方向 和 发 展 前 景 提 供 了 良好 的 保障 ,为 了 促进 流 数据 
挖掘 技术 的 广泛 应 用 和 不 断 发 展 ,还 需要 对 其 进行 更 加 深入 的 研究 。 


11.3.3 流 数 据 挖掘 的 实际 应 用 及 前 景 


可 以 说 ,在 人 们 的 现实 生活 中 的 流 数据 挖掘 是 很 常见 的 ,尤其 是 随 着 信息 技术 的 不 断 
发 展 , 流 数据 以 不 同 的 方式 出 现在 了 许多 领域 的 应 用 之 中 ,主要 包括 网 络 监控 ,传感器 等 
航天 科技 、 股 票 市 场 、 金 融 市 场 等 ,目前 , 流 数据 挖掘 主要 是 用 在 上 述 领域 中 需要 处 理 大 量 
数据 的 关键 部 门 。 例 如 ,用 于 零售 业 交易 中 的 流 数据 挖掘, 可 以 对 促销 活动 的 有 效 性 、 顾 
客 的 忠诚 度 等 进行 全 面 分 析 ; 用 于 股票 市 场 的 流 数据 挖掘 ,可 以 帮助 人 们 预测 股市 的 起 
伏 ; 用 于 航天 科技 中 的 流 数据 挖掘 ,可 以 从 空间 对 象 的 实时 图 像 中 提取 模式 ,从 而 利用 高 
度 自动 化 的 航天 器 以 及 传感器 进行 空间 探测 ;用 于 移动 车 辆 的 监控 和 信息 提取 的 流 数据 
挖掘 ,可 以 对 驾驶 员 进行 行为 分 析 等 。 可 以 相信 , 随 着 我 国 计 算 机 和 通信 等 信息 技术 的 快 
速 发 展 , 流 数据 挖掘 技术 将 在 更 多 的 领域 得 到 广泛 应 用 。 

在 现 阶段 , 流 数据 的 挖掘 技术 与 相关 知识 的 研究 已 成 为 国际 数据 挖掘 领域 的 一 大 热 
点 ,其 在 众多 领域 中 的 应 用 前 景 相 当 广阔 。 对 于 流 数据 挖掘 技术 ,其 未 来 的 研究 将 会 主要 
集中 在 以 下 几 个 方面 : 四 高 维度 实时 流 数据 的 挖掘 。 由 于 大 多 数 真 实 流 数 据 都 具有 高 维 
性 ,高 维 空间 中 对 象 分 布 稀疏 ,很 难 识别 噪声 ,因而 是 一 个 较 难 解决 的 问题 , 仍 需 深入 研 
究 。@ 基 于 资源 约束 的 自 适应 实时 流 数 据 聚 类 。 主 要 是 针对 无 线 传 感 网 络 等 资源 约束 环 
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境 进行 流 数据 聚 类 ,由 于 涉及 的 知识 领域 极 广 , 目 前 对 这 方面 的 研究 还 处 于 初级 阶段 ,还 
需要 进一步 研究 。 总 而 言 之 , 流 数据 上 的 数据 挖掘 还 有 许多 问题 值得 我 们 去 进一步 研究 
和 探讨 ,为 此 ,我 们 将 继续 对 流 数据 领域 进行 进一步 研究 。 

11.4 数据 挖掘 与 可 视 化 技术 


11.4.1 什么 是 可 视 化 





科学 计算 可 视 化 (Visualization In Scientific Computing, VISC) 是 发 达 国 家 在 20 世 
纪 80 年 代 后 期 提出 并 发 展 起 来 的 一 个 新 的 研究 领域 。 通 过 科学 计算 可 视 化 来 启发 和 促 
进 对 自然 规律 更 深层 的 认识 ,从 而 发 现 规律 并 应 用 于 生产 领域 。 科 学 计算 可 视 化 运用 计 
算 机 图 形 学 和 图 像 处 理 技术 ,将 科学 计算 过 程 中 产生 的 数据 及 计算 结果 转换 为 图 形 或 图 
像 在 屏幕 上 显示 出 来 ,并 进行 交互 处 理 的 理论 ,方法 和 技术 。 

实际 上 , 随 着 相关 技术 的 发 展 ,科学 计算 可 视 化 的 含义 已 经 逐渐 被 扩展 , 它 不 仅 包 括 
科学 计算 数据 可 视 化 ,而 且 包括 工程 计算 数据 的 可 视 化 ,如 有 限 元 分 析 的 结果 等 。 同 时 也 
包括 测量 数据 的 可 视 化 ,如 用 于 医疗 领域 的 计算 机 断层 扫描 数据 及 核磁 共振 数据 的 可 视 
化 等 应 用 领域 。 科 学 计算 可 视 化 也 覆盖 了 多 门 学 科 的 研究 领域 , 它 融 合 了 计算 机 图 形 学 、 
图 像 处 理学 、 科 学 与 符号 计算 ,计算 机 视觉 等 领域 的 知识 。 

为 了 理解 数据 之 间 的 相互 关系 及 发 展 趋势 ,促使 人 们 开始 研究 用 于 表示 抽象 信息 的 
可 视 化 技术 。 可 视 化 不 仅 用 图 像 来 显示 多 维 的 非 空 间 数据 ,而 且 用 形象 直观 的 图 像 来 指 
引 检索 过 程 ,加快 检索 速度 。 在 科学 计算 可 视 化 中 ,显示 的 对 象 涉 及 标量 ,矢量 及 张 量 等 
不 同类 别 的 空间 数据 ,研究 的 重点 放 在 如 何 真实 ,快速 地 显示 三 维 数据 场 。 而 在 可 视 化 
中 ,显示 的 对 象 主要 是 多 维 的 标量 数据 ,目前 的 研究 重点 在 于 ,设计 和 选择 什么 样 的 显示 
方式 才能 便于 用 户 了 解 庞大 的 多 维 数据 及 它们 相互 之 间 的 关系 ,其 中 更 多 地 涉及 心理 学 、 
人 机 交互 技术 等 问题 。 

所 谓 “ 可 视 化 ”就 是 将 数据 程序、 复杂 系统 的 结构 及 动态 行为 用 图 形 、 图 像 .动画 等 可 
视 化 的 形式 表示 。 可 视 化 的 内 涵 是 将 数据 通过 图 形 化 ,地 理化 形象 真实 地 表现 出 来 并 且 
找 出 数据 背后 蕴含 的 信息 ,其 本 质 是 从 抽象 数据 到 可 视 结构 的 映射 。 可 以 用 两 个 标准 来 
评价 可 视 化 的 效果 : 表现 力 和 有 效 性 。 表 现 力 是 指 可 视 化 的 结果 使 所 有 的 数据 得 到 表 
现 , 而 且 没 有 其 他 的 东西 被 引入 ;有 效 性 是 指 可 视 化 能 够 使 用 户 充 分 发 现 数据 之 间 的 关系 
和 理解 数据 。 可 视 化 相关 技术 能 够 实现 对 信息 数据 的 分 析 和 提取 ,然后 以 图 形 、 图 像 \ 虚 
拟 现实 等 易 为 人 们 所 辨识 的 方式 展现 原始 数据 间 的 复杂 关系 ,潜在 信息 以 及 发 展 趋势 ,以 
便 我 们 能 够 更 好 地 利用 所 掌握 的 信息 资源 。 一 般 来 说 ,数据 可 视 化 技术 包含 以 下 几 个 基 

(1) 数据 空间 (Data Space): 也 称 为 多 维 数据 空间 ,是 由 了 维 属性 和 个 元 素 组 成 的 
数据 集 所 构成 的 多 维 空间 。 

(2) 映射 空间 (Mapping Space) : 也 称 为 投影 空间 ,是 将 多 维 数据 按 一 定 的 函数 或 规 
则 转换 后 得 到 的 低 维 可 视 空间 。 
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(3) 多 维 数据 分 析 (Multidimensional Data Analysis): 是 指 对 多 维 数据 进行 切片 、 切 
块 .旋转 等 动作 剖析 数据 ,从 而 能 多 角度 多 侧面 地 观察 数据 。 

(4) 多 维 数据 探索 (Multidimensional Data Exploration): 是 指 利 用 一 定 的 算法 和 工 
具 对 多 维 数据 蕴含 的 信息 进行 搜索 .得 到 有 用 、 新 颖 的 信息 。 

(5) 多 维 数据 可 视 化 (Multidimensional Data Visualization): 是 指 将 大 型 数据 集中 
的 数据 以 图 形 图 像 的 形式 表示 ,并 利用 数据 分 析 和 挖掘 工具 开发 其 中 未 知 信息 的 处 理 
过 程 。 


11.4.2 数据 可 视 化 技术 分 类 
数据 的 可 视 化 会 涉及 数据 类 型 .可视化 技术 以 及 对 数据 进行 交互 和 变形 等 技术 ,这 三 


个 要 素 构成 了 对 数据 的 可 视 化。 图 11-4 描述 了 三 个 要 素 各 自 所 包含 的 内 容 。 
| 数据 类 型 





一 维 数据 上 可 视 化 技术 
二 维 数据 
多 维 数据 H 


文本 /Web 上 














层次 /图 形 数据 上 


几何 转化 显示 
算法 /软件 


标准 2D/3D 显 示 





标准 ”投影 过 滤 ”放大 变形 连接 & 刷 
图 11-4 数据 可 视 化 的 三 个 要 素 





- 


下 面 对 这 三 个 要 素 作 一 下 简要 介绍 : 
1. 待 可 视 化 数据 的 类 型 


(1) 一 维 数据 。 一 维 数据 通常 有 一 个 密度 维 , 典 型 的 一 维 数 据 的 例子 是 时 序数 据 。 
在 每 一 个 时 间 点 有 一 个 或 多 个 数据 值 相关 联 。 

(2) 二 维 数据 。 二 维 数据 有 两 个 不 同 维 。 一 个 典型 的 例子 是 地 理 数据 ,有 两 个 不 同 
的 维 : 经 度 和 纬度 。X-Y 坐标 是 典型 的 显示 二 维 数据 的 方法 ,尽管 看 起 来 可 以 很 容易 地 
处 理 时 序 或 地 理 数据 ,但 是 当 数 据 量 很 大 时 ,这 种 方法 不 是 很 容易 理解 数据 。 

(3) 多 维 数据 。 许 多 数据 集 包括 超过 三 个 维度 的 属性 ,这 样 就 不 能 简单 地 作为 二 维 
或 三 维 数据 来 显示 。 多 维 数据 的 典型 例子 是 关系 数据 库 中 的 表 , 表 的 每 一 列 都 表示 一 个 
属性 。 可 以 对 多 维 数据 进行 描述 的 方法 有 : 平行 坐标 密集 像素 显示 技术 、 散 点 图 矩阵 、 
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星 型 坐标 等 。 

(4) 文本 和 超 文 本 。 不 是 所 有 的 数据 都 可 以 靠 维 数 来 表示 ,在 网 络 时 代 , 一 种 重要 的 
数据 类 型 是 文本 和 超 文本 ,这 些 数据 不 能 轻易 地 被 描述 为 数字 ,因此 许多 标准 的 可 视 化 技 
术 不 能 被 应 用 。 多 数 情况 下 ,首先 把 该 数据 转化 为 向 量 描述 ,然后 再 应 用 可 视 化 技术 。 

O) 其 他 数据 类 型 。 这 些 数 据 类 型 包括 图 形 .层次 数据 ,算法 和 软件 等 。 图 形 可 以 表 
示 一 般 数据 之 间 的 内 部 依赖 关系 ,而 大 量 的 信息 集合 都 有 严格 的 层次 结构 ,例如 企业 员工 
的 组 织 ,产品 分 类 图 等 ,层次 数据 类 型 可 视 化 的 一 种 常见 方法 是 将 相关 数据 转化 成 一 棵 
树 ,因为 层次 结构 和 树 有 着 很 好 的 对 应 关系 , 树 有 着 从 上 到 下 的 顺序 ,内 节点 有 子 节点 , 叶 
子 节点 是 最 终 节点 ,从 根 到 每 个 节点 存在 唯一 的 路 径 。 算 法 和 软件 的 可 视 化 目的 是 为 了 
帮助 对 算法 的 理解 ,以 此 来 支持 软件 的 开发 ,例如 流程 图 ,代码 结构 图 等 。 


2. 可 视 化 技术 


可 视 化 技术 包含 几 个 方面 ,下 面 逐 个 介绍 每 种 数据 可 视 化 技术 。 

(1) 标准 的 2D/3D HER: 如 XY(XYZ) 坐 标 ,条 形 图 (Bar Charts) ,线条 图 (Line 
Graphs) 等 ,这 也 是 我 们 最 常用 到 的 数据 可 视 化 表达 方式 。 

(2) 几何 转化 显示 技术 (Geometrically-Transformed Displays); 几何 转化 显示 技术 
旨 在 发 现 多 维 数据 集 的 有 趣 的 转化 。 几 何 显示 技术 据 研 究 统计 主要 包括 以 下 几 种 ， 

O 散 点 图 矩阵 (Scatterplots Matrices) 

散 点 图 可 能 是 最 流行 的 数据 挖掘 可 视 化 工具 , 它 帮助 我 们 发 现 簇 ( 聚 类 ) 、 外 层 、 趋 势 和 
关系 。 掠 过 的 点 和 分 类 着 色 的 点 被 用 来 获得 对 数据 的 额外 洞察 。 当 数据 点 过 多 ,彼此 交 竺 
或 数据 的 分 解 使 大 量 的 数据 点 位 于 同一 个 坐标 系 时 ,放大 , 扫 视 全 景 以 及 抖动 就 可 被 用 来 提 
高 视图 效果 。 当 要 显示 的 维 数 较 多 时 , 散 点 图 就 很 难 表现 出 好 的 效果 了 ,而 散 列 图 矩阵 解决 
了 这 个 问题 , 它 使 散 点 图 用 矩阵 的 方式 排列 以 表达 多 维 数据 集 属性 彼此 间 的 关系 。 

@ 解剖 视图 (Prosection Views) 

把 截面 (section) 和 投影 (projections) 组 合 起 来 称 为 解剖 (prosections) ,这 样 就 可 以 显 
示 中 间 维 的 结构 面貌 ,投影 能 够 容易 地 显示 低 维 的 结构 。 截 面 能 够 容易 地 显示 较 低 的 余 
维 数 ,例如 具有 高 维 对 象 的 子 空间 的 交集 。 

@ 平行 坐标 法 (Parallel Coordinates) 

平行 坐标 法 是 最 早 提出 的 在 二 维 平面 * 上 显示 7 维 空间 的 数据 可 视 化 技术 之 一 。 它 
的 基本 思想 是 将 n 维 数据 属性 空间 用 n 条 等 距离 的 平行 轴 映 射 到 二 维 平面 上 ,每 条 轴线 
对 应 一 个 属性 维 ,坐标 轴 的 取 值 范 围 从 对 应 属性 的 最 小 值 到 最 大 值 均匀 分 布 。 这 样 ,每 一 
个 数据 项 就 都 可 以 用 一 条 折线 表示 在 n 条 平行 轴 上 。 这 个 视图 能 够 使 用 户 对 每 个 属性 的 
数据 分 布 有 一 个 粗略 的 认识 ,尤其 是 当 不 同类 型 的 数据 以 不 同 颜色 显示 ,能 够 更 清晰 地 表 
示 不 同类 型 数据 之 间 的 差异 。 

@ 星 型 坐标 法 (Star Coordinates) 

星 型 坐标 法 是 在 近 几 年 提出 的 一 种 新 的 可 视 化 方法 , 它 也 是 在 二 维 平面 上 显示 7 维 
空间 的 数据 可 视 化 技术 之 一 。 它 的 基本 思想 是 将 n 维 数据 属性 以 坐标 轴 的 形式 映射 到 二 
维 平面 上 ,每 条 坐标 轴 对 应 一 个 数据 属性 ,这 些 轴 线 相 交 于 一 个 中 心 点 ,n 维 数据 空间 中 
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的 点 被 表示 成 这 个 二 维 平 面 上 的 一 个 点 。 

(3) 图 标 显示 技术 (Iconic Displays) 。 
图 标 显示 技术 是 基于 图 标的 技术 ,其 核心 思想 是 把 每 个 多 维 数据 项 画 成 一 个 图 标 。 
图 标 可 以 被 任意 定义 ,它们 可 以 是 “小 脸 “ 针 图 标 “ 星 图 标 “ 棍 图 标 ”, 这 些 都 是 曾经 被 人 
们 用 过 的 图 标 形状 。 例 如 ,在 星 图 标 显示 技术 中 ,每 一 维 数据 用 一 条 射线 表示 ,数据 的 大 
小 由 射线 的 长 短 来 表示 ,属性 的 个 数 就 是 射线 的 条 数 , 所 有 射线 的 起 点 相同 ,彼此 的 夹 角 
也 相同 ,射线 的 端点 由 折线 段 彼此 相连 。 

(4) 密集 像素 显示 技术 (Dense Pixel Displays) 。 

密集 像素 技术 的 基本 思想 是 把 每 一 维 数据 值 映射 到 一 个 彩色 的 像素 上 ,并 把 属于 每 
一 维 的 像素 归 人 临近 的 区 域 。 因 为 密集 像素 显示 技术 用 每 一 个 像素 相应 地 显示 每 一 个 数据 
值 ,所 以 此 技术 允许 可 视 化 大 量 的 数据 ,目前 大 概 能 够 在 同一 屏幕 上 显示 超过 1 000 000 个 
数据 值 。 如 果 每 个 数据 值 都 由 一 个 像素 表示 ,那么 主要 的 问题 就 是 如 何在 屏幕 上 安排 这 些 
像素 。 密 集 像素 技术 针对 不 同 的 目的 采取 不 同 的 方式 安排 像素 ,显示 的 结果 可 以 为 局 部 
关系 、 依 赖 性 和 热点 提供 详细 的 信息 。 著 名 的 例子 是 递归 模式 技术 (Recursive Pattern 
Technique) 和 圆周 分 段 技术 (Circle Segments Technique)。 递 归 模 式 技术 基于 普通 的 弟 
归来 回 地 安排 像素 ,其 目标 尤其 在 于 按照 一 个 属性 以 自然 的 顺序 表示 数据 集 , 用 户 可 以 为 
每 个 递归 层 指定 参数 , 随 之 可 以 控制 像素 的 安排 ,以 形成 语义 上 有 意义 的 子 结构 。 圆 周 分 
段 技术 的 思想 是 将 圆周 分 成 若干 部 分 ,每 部 分 对 应 一 个 属性 。 在 每 部 分 中 ,每 个 属性 值 由 
一 个 有 颜色 的 像素 显示 。 

(5) BÆREREN (Stacked Displays). 

层 释 式 显示 技术 以 分 层 的 方式 将 数据 分 开 表示 在 子 空间 中 。 将 维 属性 空间 划分 成 
二 维 平面 上 的 子 区 域 , 子 区 域 彼此 啼 套 ,对 这 些 子 区域 仍 以 层次 结构 的 方式 组 织 并 以 图 形 
方式 表示 。 基 本 思想 是 将 一 个 坐标 系统 嵌入 另外 的 坐标 系统 中 , 属性 数值 被 划分 为 几 个 
类 。 结 果 视 图 的 有 效 性 很 大 程度 上 依赖 于 外 层 坐 标 上 数据 的 分 布 , 因 此 ,用 来 定义 外 层 坐 
标 系统 的 维 数 必 须 仔 细 地 选择 ,一 个 首要 的 规则 是 先 选择 最 重要 的 维 。 


3. 交互 和 变形 技术 


除了 数据 可 视 化 技术 ,对 于 有 效 的 数据 研究 还 需要 一 些 交互 和 变形 技术 。 交 互 和 变 
形 技术 可 以 使 数据 分 析 人 员 直 接 和 视图 交互 ,并 且 按 照 研 究 对 象 动态 地 改变 视图 。 用户 
根据 领域 知识 和 主观 判断 利用 交互 变形 技术 可 以 使 视图 以 不 同 的 效果 显示 出 来 ,从 不 同 
的 角度 对 数据 进行 分 析 观 察 , 达 到 很 好 的 数据 分 析 效果 。 不 同 的 数据 可 视 化 方法 ,对 视图 
的 交互 和 变形 技术 也 有 所 不 同 , 如 上 面 介绍 的 各 个 数据 可 视 化 方法 ,都 有 各 自 的 可 视 化 技 
术 供 用 户 在 与 数据 视图 进行 交互 时 使 用 。 














11.4.3 数据 挖掘 可 视 化 技术 的 应 用 


数据 挖掘 和 可 视 化 技术 是 两 个 相对 独立 的 研究 领域 ,但 它们 又 联系 密切 。 数 据 挖掘 
过 程 需 要 可 视 化 技术 的 支持 ,可 视 化 分 析 本 身 就 是 挖掘 知识 的 过 程 。 
数据 挖掘 可 视 化 是 指使 用 可 视 化 技术 在 大 量 的 数据 中 发 现 潜在 有 用 的 知识 的 过 程 。 
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其 中 ,“ 可 视 ” 是 指 “将 某 些 不 可 见 的 或 抽象 的 事物 表示 成 看 得 见 的 图 形 或 图 像 ;“ 可 视 化 ” 
是 指使 用 计算 机 创建 可 视图 像 ,从 而 为 理解 那些 大 量 的 复杂 数据 提供 帮助 。 它 包含 了 数 
据 挖掘 生命 周期 的 三 个 阶段 : 数据 准备 、 模 型 生成 .知识 使 用 的 创造 性 的 可 视 化 表达 。 这 
也 就 暗示 了 将 数据 挖掘 可 视 化 分 成 四 部 分 ,其 中 前 三 个 部 分 对 应 于 一 个 阶段 ,最 后 一 部 分 
就 是 对 数据 挖掘 整个 应 用 过 程 的 可 视 化 ,所 有 四 个 部 分 的 目标 都 是 为 了 提高 信息 和 知识 
在 工程 师 和 数据 挖掘 流程 之 间 交 流 的 方便 性 ,更 进一步 的 描述 如 下 : 

(1) 数据 准备 。 数 据 准备 阶段 的 可 视 化 目标 就 是 将 数据 预 处 理 的 功能 以 可 视 化 的 形 
式 进行 ,这 里 可 视 化 操作 的 内 容 包括 : 缺失 值 的 处 理 、 数 据 转换 数据 采样 和 修剪 等 。 

(2) 模型 生成 。 模 型 生成 阶段 的 目标 就 是 将 模型 创建 的 整个 细节 以 一 种 可 视 化 形式 
呈现 出 来 。 训 练 集 , 模 型 的 选择 、 参 数 的 设 定 ,训练 过 程 的 细节 ,结果 的 存储 都 是 这 个 阶段 
的 工作 。 数 据 挖掘 可 视 化 工作 的 目的 就 是 可 视 化 运用 ,也 就 是 以 一 种 可 视 化 的 形式 评估 、 
监督 ,指导 数据 挖掘 模块 。 评 估 包 括 对 训练 集 、 测 试 集 、 模 型 在 不 同 数据 中 的 表现 和 对 于 
特定 情况 的 数据 和 学 习 算法 的 选择 等 的 有 效 性 验证 。 监 督 包 括 : 跟踪 算法 的 进程 .评估 
模型 随 着 数据 库 更 新 之 后 的 情况 等 。 指 导 的 内 容 包 括 : 用 户 初始 观点 的 设 定 、 输 入 的 变 
化 、 得 到 的 模式 和 其 他 的 系统 决定 。 可 视 化 的 呈现 应 该 存在 于 所 有 这 些 任务 中 ,以 提高 用 
户 和 数据 挖掘 模块 之 间 信 息 的 交互 性 。 

(3) 知识 使 用 。 该 阶段 的 可 视 化 呈现 目标 是 通过 将 数据 挖掘 过 程 的 结果 以 可 视 化 的 
形式 呈现 出 来 ,从 而 帮助 用 户 获取 知识 的 。 在 大 多 数 情 况 下 ,数据 挖掘 算法 的 结果 如 关 
联 、 分 类 等 ,都 是 以 一 种 人 类 的 视觉 系统 很 难 理解 的 方式 存在 的 。 已 经 有 一 些 可 视 化 技术 
提出 来 用 于 解决 这 个 问题 ,如 以 树 的 形式 展示 规则 ,但 是 只 有 极 少 一 部 分 能 够 展示 出 重要 
的 结果 特征 来 。 大 多 数 情况 下 ,如 果 生成 了 大 量 的 结果 ,对 于 知识 分 析 师 来 说 ,还 是 很 难 
获取 有 用 的 信息 。 在 验证 阶段 ,数据 挖掘 可 视 化 的 工作 就 是 数据 可 视 化 ,其 中 包括 的 数据 
有 : 原始 数据 、 汇 总 数据 、 配 置 数据 或 者 是 抽取 得 到 的 知识 信息 。 这 个 阶段 的 数据 往往 太 
多 ,超过 了 人 能 处 理 的 范围 ,此 阶段 数据 挖掘 可 视 化 的 基本 想法 就 是 将 在 数据 空间 中 隐藏 
的 信息 尽量 多 地 呈现 在 视觉 空间 中 。 这 里 的 映射 工作 包括 将 数据 库 中 可 以 获得 的 信息 映 
射 到 可 以 用 可 视 化 技术 呈现 的 信息 上 。 

(4) 流程 可 视 化 。 数 据 挖掘 流程 可 视 化 的 目标 就 是 将 数据 挖掘 的 整个 过 程 用 一 种 可 
视 化 的 形式 展现 在 用 户 面前 。 这 样 ,也 可 以 给 知识 分 析 师 更 多 的 自信 以 指导 下 一 步 的 工 
作 。 通 过 将 数据 挖掘 过 程 用 可 视 化 的 方式 呈现 出 来 ,从 而 帮助 用 户 以 一 种 具体 和 简明 的 
方式 掌握 知识 获取 和 决策 分 析 的 进程 ,并 让 用 户 充分 地 融入 其 中 。 

所 有 前 面 的 努力 都 是 为 了 产生 可 视 化 的 结果 ,帮助 知识 分 析 师 从 数据 中 获取 尽 可 能 
多 的 信息 。 可 以 对 任何 数据 进行 可 视 化 ,只 要 有 利于 知识 的 获取 。 可 视 化 方法 不 仅 可 以 
帮助 我 们 理解 数据 中 隐藏 的 信息 ,同时 可 以 帮助 我 们 理解 数据 挖掘 分 析 的 结果 。 在 整个 
数据 挖掘 过 程 中 ,选取 合理 的 可 视 化 工具 是 发 现 高 质量 知识 和 规则 的 基础 和 保障 。 











11.5 小 结 


本 章 介 绍 了 数据 挖掘 的 新 发 现 , 具 体 介 绍 了 Web 挖掘 ,空间 数据 挖掘 、 流 数据 挖掘 、 
数据 挖掘 与 可 视 化 技术 。 
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E 


数据 挖掘 的 发 展 


考题 


. 什么 是 Web 数据 挖掘 ? Web 数据 挖掘 的 分 类 有 哪些 ? 
.空间 数据 挖掘 的 特点 和 体系 结构 是 什么 ? 

. 流 数据 的 特点 是 什么 ? 流 数据 挖掘 的 实际 应 用 有 哪些 ? 
.什么 是 可 视 化 ? 


~ co r = 
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